1 / 12

WissGrid AP3: LZA Dienste

WissGrid AP3: LZA Dienste. Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10. Inhalt: Hintergrund und Motivation Aktuelle Umsetzung Beispiel: Formatdienste in Klima-Community. Langzeitarchivierung (LZA): Sicherung der Nachnutzbarkeit

Télécharger la présentation

WissGrid AP3: LZA Dienste

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. WissGrid AP3:LZA Dienste Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10

  2. Inhalt: • Hintergrund und Motivation • Aktuelle Umsetzung • Beispiel: Formatdienste in Klima-Community

  3. Langzeitarchivierung (LZA): • Sicherung der Nachnutzbarkeit • Bitstream Preservation: Datenentitäten bleiben erhalten • Content Preservation: Datenentitäten bleiben lesbar • Data Curation: Datenentitäten bleiben interpretierbar • Datenentitäten: • Digitale Medien und wissenschaftliche Primärdaten WissGrid LZA Dienste

  4. LZA-Dienste, LZA-Ebenen und Akteure WissGrid Dienste-Fokus: Content Preservation

  5. Zentraler Aspekt in Content Preservation: • Anpassung vorhandener Datenformate an sich verändernde SW-Werkzeuge • Strategie: • Veraltete Speicherformate in aktuelle Formate konvertieren (z.B. digitale Medien) • SW-Werkzeuge zum Lesen der Speicherformate auf aktuelle Rechnerarchitekturen migrieren (z.B. hoch volumige Daten aus (Klima-)Modellierung und Erdbeobachtung) • WissGrid Fokus für LZA-Dienste auf A): • Transformation definierter Formate kann am ehesten automatisiert und als Grid-Dienst implementiert werden.

  6. LZA-Dienste, die sich aus WissGrid Architektur ergeben: • Repository: SW-System, das Daten mit Metadaten im Grid verwaltet • Formatkonvertierung: Konvertierung in neue technische Form für dasselbe intellektuelle Objekt • Formatcharakterisierung: Auslesen technischer Metadaten aus Dateien • Formatvalidierung: Prüft Übereinstimmung von Objekten mit Definition bzw. Charakterisierung • Provenienz-Service: Informationen um Entstehung und Modifikation von Daten sollen in LZA-Repositorien integriert werden, um Nachnutzung sicherzustellen • WissGrid Dienste Framework (WDF): Stellt LZA-Dienste im Grid zur Verfügung

  7. LZA-Dienste im OAIS-Ingest als Interface zum Forschungsdatenarchiv (LZA) Formatvalidierung: Prüfung auf Formatfehler beim Einfüllen in Forschungsdatenarchiv (OAIS „quality assurance“) Formatcharakterisierung: bietet Provenienzinformation. Übergang zu Data Curation und inhaltlichen Metadaten fließend (OAIS „general descriptve information“) Formatkonvertierung: unterschieden nach „migration on ingest“, migration on access“ und „migration on obsolence“ (verschiedene OAIS Referenzen, hier „generate AIP“) Provenienz-Service: Speicherung der Prozeßinformation, enthalten in OAIS Informationspaketen.

  8. Umsetzung • Formatcharakterisierung und –validierung • Funktionaler Ablauf: • Identifikation des Datenformats • Identifikation des richtigen Formatmoduls • Formatmodul parst Daten • Anwendung der Validierungskriterien • Serialisierung der gewonnenen Metadaten in Zielformat • Technische Umsetzung: JHOVE2 wurde entwickelt für Standard-Medienformate, Erweiterung auf NetCDF in Klima-Community im Rahmen von C3-Grid (Details AWI, Bremerhaven)

  9. Formatkonvertierung • Funktionaler Ablauf: • Identifikation des Datenformats (z.B. JHOVE) • Evaluation der Abhängigkeiten und Entscheidung zur Aggregation in LZA • Identifikation des richtigen Konvertermoduls • Ausführung des Konvertermoduls und Validierung des Zielformats • Generierung von Provenienzmetadaten • Technische Umsetzung: • CriB und kopal Migration Manager sind Frameworks zur Formatkonvertierung (Prototypen), eigentliche Konvertierung durch externe Dienste • Klima-Community: • Aggregation von Einzelfiles in Container-Format (tar) • CMOR-2: Konvertierung von Modelloutput in NetCDF4 • CDOs (Climate Data Operators): Konvertierung in NetCDF, GRIB, ASCII • WDCC des DKRZ: Konvertierung NetCDF oder GRIB in ASCII

  10. Provenienzdienst • Funktionaler Ablauf: Metadaten aus Formatcharakterisierung und –validierung werden in XML-Contianer (z.B.OGF-Usage-Record) gespeichert und mit XSLT-Mapping auf Metadaten in LZA Repositorien der Forschungsdatenarchive abgebildet (z.B. PREMIS-Standard für preservation metadata, CERA-2 im WDCC/DKRZ, ISO19115 im C3-Grid)). • Technische Umsetzung:(Graphik aus AeroGrid) C3-Grid: Metadaten werden in den einzelnen Datenbearbeitungsschritten der Workflows angepasst

  11. WissGrid Dienst Framework (WDF) • Ablauf einer LZA Aufgabe: • Submit: Annahme der LZA-Aufgabe(z.B. Konvertiere TIFF Daten, die älter als zwei Jahre sind, in JPEG 2000) • Extract: Filterung der gefragten Daten aus Repository • Identify: Auswahl einer verfügbaren CE (computing element), auf der der gefragte Dienst installiert ist • Stage-In: Transfer der Daten auf das CE • Stage-Out: Annahme der konvertierten Daten, nach Ablauf des Jobs • Re-Ingest: Rückführung der Daten in das Repository und Aktualisierung der Metadaten

  12. Formatdienste in Klima-Community Klimadaten: Hoch volumige, homogene Datensätze von numerischen Modellen und Satelliten, aber auch heterogene Daten aus Instrumentenbeobachtungen Eintrag in Forschungsdatenarchive (LZA): Charakterisierung/Dokumentation (Metadaten) und Konvertierung in LZA-konformes Standardformat Selbstbeschreibendes Standardformat: NetCDF/CF enthält Metadaten zur Formatcharakterisierung und in Ansätzen zur Dateninterpretation Dienste in C3-Grid: Entwicklung von Werkzeugen zur automatischen Metadatenerzeugung aus NetCDF (JHOVE-2), CDO zur Formatvalidierung und –Konvertierung, DB des WDCC/DKRZ zur Formatkonvertierung beim Datenzugriff Dienste IPCC AR5: CMOR-2 (C-Programm) als LZA Schnittstelle zur Formatvalidierung, Charakterisierung und Konvertierung (Modelldatenformat in NetCDF4) und zur Extraktion von Metadaten für den Provenienz-Service

More Related