500 likes | 625 Vues
Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας "Διοίκηση & Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της Πληροφορίας". ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης. Εργασία: Open Archives Initiative (OAI)
E N D
Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας "Διοίκηση & Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της Πληροφορίας" ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗΔιδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης Εργασία: Open Archives Initiative (OAI) OAI-PMH (Protocol for Metadata Harvesting) Βασίλειος Σουλικιάς Εαρινό εξάμηνο: Ιούνιος 2004
ΠΕΡΙΕΧΟΜΕΝΑ • Ιστορικό OAI, OAI-PMH • Κύριες ιδέες και τεχνικές λεπτομέρειες του OAI-PMH • Θέματα Υλοποίησης μίας εφαρμογής OAI-PMH • Συμπεράσματα
ΙΣΤΟΡΙΚΟ (1/4) • Προηγούμενη Δημιουργία E-print αρχείων από επιστημονικές κοινότητες • XXX (arXiv), CogPrints, NCSTRL, RePEc, NDLTD…… • Web interfaces για τους χρήστες • Διαφορετικά interfaces γιαδιαφορετικά αρχεία • Οι χρήστες έπρεπε να μάθουν διάφορα interfaces • Μερική ή καθόλου αυτόματη-μηχανική ανταλλαγή μεταδεδομένων
ΙΣΤΟΡΙΚΟ (2/4) • Santa Fe Meeting “…η συνδυασμένη επιρροή αυτών και των μελλοντικών ανάλογων πρωτοβουλιών μπορεί να είναι ουσιαστικά υψηλότερη όταν η διαλειτουργικότητα μεταξύ των e-print αρχείων μπορεί να επιτευχθεί …” [Ginsparg, Luce, Van de Sompel, UPS Call, July 1999]
ΙΣΤΟΡΙΚΟ (3/4) Τα δύο κύρια προβλήματα: • Οι χρήστες έρχονται αντιμέτωποι με πολλαπλά interfaces πράγμα που δυσκολεύει την αναζήτηση των πόρων. • Η μη ύπαρξη μηχανικού τρόπου ανταλλαγής μεταδεδομένων
ΙΣΤΟΡΙΚΟ (4/4) Ταυτόχρονη αναζήτηση σε πολλαπλά αποθετήρια (Cross Search); • Η εμπειρία λέει ότι cross search δεν έχει καλή απόδοση σε πάνω από 100 αποθετήρια. • Διάφορα προβλήματα σχετικά με την επιλογή των στόχων αποθετηρίων, δυσκολίες ενοποίησης δεδομένων από διαφορετικά συστήματα, η απόδοση εξαρτάται από τα συστήματα χαμηλής απόδοσης, δυσκολία δημιουργίας browse interface. • ΛΥΣΗ:Συγκέντρωση των Μεταδεδομένων σε ένα μέρος
Η ΙΔΕΑ ΤΟΥ HARVESTING • ΣΥΓΚΟΜΙΔΗ των μεταδεδομένων σε ένα μέρος • UPS- Universal Preprint Service • Έχουμε μια γλώσσα ερωτήσεων, κοινά γνωρίσματα αναζήτησης(attributes) και ranking αλγόριθμους. Δημιουργία Browse interface • Η UPS μετεξελίσσεται σε OAI
Διαθέτες δεδομένων και Υπηρεσιών • Διαθέτης Δεδομένων (Data Provider) • Ο δημιουργός και αυτός που διατηρεί τα μεταδεδομένα και τα αποθετήρια των πηγών(resources) • Διαθέτης Υπηρεσιών (Service Provider) • Συγκομίζουν μεταδεδομένα με σκοπό την παροχή υπηρεσιών όπως μια διεπιφάνεια αναζήτησης. • Μια υπηρεσία μπορεί να παίξει και τους δύο ρόλους
Η ΑΠΑΡΧΗ ΕΝΌΣ ΠΡΩΤΥΠΟΥ Για την διευκόλυνση της συγκομιδής απαιτείται κοινή συμφωνία στα: • Στο πρωτόκολλο μεταφοράς των δεδομένων(HTTP,FTP….) • Στο format των μεταδεδομένων(DC,MARC….) • Στην εξασφάλιση της ποιότητας των μεταδεδομένων(σύνολο των υποχρεωτικών πεδίων, θεματική απόδοση, ονοματοδωσία…) • Πνευματική υπευθυνότητα – Δικαιώματα χρήσης Η κοινή απόφαση για τα παραπάνω οδήγησε στην συμφωνία της Santa Fe
Η συμφωνία της Santa Fe Είναι η πρώτη ενσάρκωση του ΟΑΙ Στηρίχτηκε πάνω: • Στο πρωτότυπο της UPS • Repec/SODA –Service/Data provider Model • Πρωτόκολλο Dienst • Εργασία της ομάδας Santa Fe Στόχος η βελτίωση της αναζήτησης των e-prints
OAI – PMH ver. 1.0 Εισάγει το σύνολο στοιχείων DC. Στηρίχτηκε στα: • Συμφωνία της Santa Fe • Στις συναντήσεις Digital Library Federation • Σε εργασίες που έλαβαν χώρα στο Cornel • Απαντήσεις από Alpha-testers Εστιάζει στην βελτίωση της αναζήτησης των«document-like objects»
Κύρια χαρακτηριστικά του OAI-PMH 1.0 • Προσδιόριζε ένα Χαμηλό επίπεδο διαλειτουργικότητας • Μοντέλο συγκομιδής • “document-like objects” • HTTP • GET / POST αιτήσεις • XML απαντήσεις • unqualified Dublin Core • Αποτελεί ερευνητικό πλαίσιο OAI-PMH 1.1 XML schema
OAI-PMH ver. 2.0 • Σημαντική αναθεώρηση – όχι συμβατή με τις 1.x • Στηρίχτηκε πάνω: • OAI-PMH 1.x • Απαντήσεις των συμμετεχόντων στην OAI Implementers List • διαβουλεύσεις της OAI tech • Απαντήσεις των alpha-testers • Στόχος η επαναλαμβανόμενη ανταλλαγή μεταδεδομένων των πηγών μεταξύ των συστημάτων
Χαρακτηριστικά του OAI-PMH 2.0 • Προσδιορίζει επίσης ένα Χαμηλό επίπεδο διαλειτουργικότητας • Μοντέλο συγκομιδής • “μεταδεδομένα για τις πηγές (resources)” • HTTP • GET / POST αιτήσεις • XML απαντήσεις • unqualified Dublin Core Σταθερό- Η OAI δεσμεύτηκε ότι οι επόμενες αναθεωρήσεις θα είναι συμβατές με τις προηγούμενες
Από το OAI-PMH 1.x στο 2.0 The Open Archives Initiative Protocol for Metadata HarvestingChanges from OAI-PMH 1.1 to OAI-PMH 2.0 Protocol Version 2.0 of 2002-06-14Document Version 2002/06/09T16:43:00Zhttp://www.openarchives.org/OAI/migration.htm
Πλεονεκτήματα του OAI • Απλό • Φιλική λειτουργία με τo web • Ο έλεγχος πρόσβασης, η συμπίεση οι κωδικοί λαθών κλπ., στηρίζονται στο HTTP • διάφορα toolkits (μπορούν να κρύβουν το πρωτόκολλο) • Πολλαπλοί διαθέτες υπηρεσιών μπορούν να κάνουν συγκομιδή από πολλούς διαθέτες δεδομένων εξασφαλίζοντας ευρεία εξάπλωση των μεταδεδομένων • Αποτελεί ένα βασικό επίπεδο όπου μπορούν να χτιστούν άλλες υπηρεσίες • Λειτουργεί συμπληρωματικάμε άλλα πρωτόκολλα όπως το Z39.50
ΚΥΡΙΕΣ ΙΔΕΕΣ ΤΟΥ OAI-PMH • Ευρεία ενοποίηση των ακαδημαϊκών αποθετηρίων/αρχείων • Ελεύθερη πρόσβαση τουλάχιστον σε επίπεδο μεταδεδομένων • Συμμορφούμενα interfaces για αρχεία και υπηρεσίες • Πρωτόκολλο εύκολα υλοποιήσιμο καθώς στηρίζεται σε (HTTP, XML, DC)
ΓΕΝΙΚΕΣ ΠΕΡΙΓΡΑΜΜΑ • Δύο κατηγορίες συμμετεχόντων • Διαθέτες δεδομένων (Open Archives, Repositories) • Ελεύθερη πρόσβαση σε μεταδεδομένα • Όχι υποχρεωτικά πρόσβαση στο περιεχόμενο • Διαθέτες Υπηρεσιών • Xρήση OAI interfaces των διαθετών δεδομένων • Συγκομίζουν και διατηρούν μεταδεδομένα (no live requests!) • Μπορούν να επιλέγουν συγκεκριμένα υποσύνολα από τους διαθέτες δεδομένων • Μπορούν να εμπλουτίζουν τα μεταδεδομένα • Προσφέρουν υπηρεσίες προστιθέμενης αξίας στο επίπεδο των μεταδεδομένων
Συνοπτική εικόνα του OAI-PMH • Πρωτόκολλο που στηρίζεται σε HTTP • Οι αιτήσεις διατυπώνονται ως παράμετροι GET or POST • Έξι (6) τύποι αιτήσεων (requests) • Πχ. http://archive.org?verb=ListRecords&from=2002-11-01 • Οι απαντήσεις είναι κωδικοποιημένες σε XML συντακτικό • Υποστηρίζει οποιοδήποτε format μεταδεδομένων (υποχρεωτικά: Dublin Core) • Λογική ιεραρχία των συνόλων (logical set hierarchy) (definition: data providers) • Ημερολογιακά στοιχεία (date stamps) (τελευταία αλλαγή του συνόλου των μεταδεδομένων) • Υποστηρίζει μηνύματα λάθους • Έλεγχος ροής
Τεχνικές Λεπτομέρειες του OAI-PMH: Αποσαφηνίσεις 1/2 Harvester • Μία εφαρμογή που διατυπώνει αιτήσεις OAI-PMH Αποθετήριο (Repository) • Ένας server που μπορεί να διαχειριστεί σωστά αιτήσεις OAI-PMH Πηγή (Resource) • Ένα ψηφιακό αντικείμενο για το οποίο έχουν δημιουργηθεί τα μεταδεδομένα η φύση των αντικείμένων αυτών δεν προσδιορίζεται από το OAI-PMH Τεκμήριο (Item) • Το κομμάτι-μέροςενός αποθετηρίου από το οποίο τα μεταδεδομένα μίας πηγής μπορούν να διανεμηθούν • Έχει πάντα έναν μοναδικό identifier Εγγραφή (Record) • Μεταδεδομένα σε ένα συγκεκριμένο format Ταυτοποιητής (Identifier) • Μοναδικό κλειδί για ένα τεκμήριο σε ένα αποθετήριο Σύνολο(Set) • Μη υποχρεωτικό σχήμα ομαδοποίησης των items ενός αποθετηρίου
Τεχνικές Λεπτομέρειες του OAI-PMH: Αποσαφηνίσεις 2/2
Τεχνικές Λεπτομέρειες του OAI-PMH: Εγγραφές • τα μεταδεδομένα μιας πηγής σε ένα συγκεκριμένο format • Αποτελείται από τρία μέρη: • header (mandatory) • identifier (1) • datestamp (1) • setSpec elements • status για διαγραμμένα item • metadata (mandatory) • XML κωδικοποιημένα μεταδεδομένα (root tag, namespace) • Τα αποθετήρια πρέπει να υποστηρίζουν DC • about (optional) • Δηλώσεις δικαιωμάτων • Δηλώσεις προέλευσης
Τεχνικές Λεπτομέρειες του OAI-PMH: DateStamps Ημερομηνία της τελευταίας αλλαγής του συνόλου των μεταδεδομένων(metadata set) • Υποχρεωτικό χαρακτηριστικό κάθε Item • Δύο πιθανές μορφές :YYYY-MM-DD, YYYY-MM-DDThh:mm:ssZ • Παρέχει την δυνατότητα αιτήσεων συγκομιδήςfromκαιuntil • Εφαρμογή στους μηχανισμούς αύξησης και ενημέρωσης • Δίνει την ημερομηνία τροποποίησης ,δημιουργίας ή διαγραφής • Σχετικά με την διαγραφή υποστηρίζει τρεις καταστάσεις( no, persistent, transient)
Τεχνικές Λεπτομέρειες του OAI-PMH: Το Σχήμα των Μεταδεδομένων (1/3) • OAI-PMH υποστηρίζει διανομή από πολλαπλά formats μεταδεδομένων από ένα αποθετήριο • Ιδιότητες των formats μεταδεδομένων • id string που προσδιορίζει το format (metadataPrefix) • metadata schema URL (XML schema για έλεγχο εγκυρότητας) • XML namespace URI (global identifier for metadata format) • Τα Αποθετήρια πρέπει να υποστηρίζουν διανομή σε unqualified Dublin Core • Αυθαίρετα formats μεταδεδομένων μπορούν να προσδιορίζονται και να μεταφέρονται μέσω του OAI-PMH • Τα επιστρεφόμενα μεταδεδομένα πρέπει να υπακούουν στις XML namespace προδιαγραφές
Τεχνικές Λεπτομέρειες του OAI-PMH: Το Σχήμα των Μεταδεδομένων (2/3) Ελάχιστο standard: υποστήριξη unqualified Dublin Core • http://dublincore.org/ • Το Dublin Core Metadata Element Set περιλαμβάνει15 στοιχεία • Τα στοιχεία δεν είναι υποχρεωτικά • Τα στοιχεία μπορούν να είναι επαναλαμβανόμενα
The Dublin Core Metadata Element Set: Title Creator Subject Description Publisher Contributor Date Type Format Identifier Source Language Relation Coverage Rights Τεχνικές Λεπτομέρειες του OAI-PMH: Το Σχήμα των Μεταδεδομένων (3/3)
Τεχνικές Λεπτομέρειες του OAI-PMH: Σύνολα (sets) Λογικός χωρισμός των αποθετηρίων σε τμήματα • Είναι επιλογής – τα αρχεία δεν είναι υποχρεωμένα να προσδιορίζουν sets • Δεν υπάρχουν υποδείξεις για την υλοποίηση sets • Δεν είναι ανάγκη να είναι εξαντλητικά ούτε ιεραρχικά • Βρίσκουν εφαρμογή: σε επιλεκτική συγκομιδή(set parameter) • Εφαρμογές: Θεματικές Πύλες, μηχανή αναζήτησης διατριβών…….. • Παραδείγματα • Τύπος δημοσίευσης (thesis, article, …) • Τύπος τεκμηρίου (text, audio, image, …) • Θεματική ευρετηρίαση του περιεχομένου σύμφωνα με την DNB (medicine, biology, …)
Τεχνικές Λεπτομέρειες του OAI-PMH: παράδειγμα αίτησης GET request: http://archive.org/oai?verb=ListRecords&metadataPrefix=oai_dc
Τεχνικές Λεπτομέρειες του OAI-PMH: Απάντηση Η απάντηση πρέπει να είναι well-formed XML με markup όπως τα παρακάτω: • Δήλωση της XML (<?xml version="1.0" encoding="UTF-8" ?>) • root element named OAI-PMH με τρία γνωρίσματα(xmlns, xmlns:xsi, xsi:schemaLocation) • Τρία child στοιχεία • responseDate • request • error
Τεχνικές Λεπτομέρειες του OAI-PMH: κωδικοί λαθών • Τα αποθετήρια πρέπει να προσδιορίζουν τα OAI-PMH λάθη σε μία απάντηση μιας αίτησης • Καθορισμένοι δείκτες λάθους • badArgument • badResumptionToken • badVerb • cannotDisseminateFormat • idDoesNotExist • noRecordsMatch • noMetaDataFormats • noSetHierarchy
Τεχνικές Λεπτομέρειες του OAI-PMH: Τύποι αιτήσεων • Έξι (6) τύποι αιτήσεων • Identify (περιγραφή ενός αρχείου) • ListMetadataFormats( ανακτά τα διαθέσιμα formats των μεταδεδομένων) • ListSets(ανακτά την δομή ενός αποθετηρίου) • ListIdentifiers (συντομευμένη Listrecords ανακτά μόνο τουςIdentifiers) • ListRecords(συγκομιδή εγγραφών από το αποθετήριο) • GetRecord(συγκομιδή συγκεκριμένης εγγραφής) • Ένας harvester δεν χρειάζεται να χρησιμοποιεί όλους τους τύπους • Ένα αποθετήριο πρέπει να υλοποιεί όλους τους τύπους
Ερωτήσεις που πρέπει να τεθούν σε μια υλοποίηση του ΟΑΙ πρωτοκόλλου Διαθέτης Δεδομένων • Πρέπει να απαντήσει στο ερώτημα: ποία δεδομένα θέλω να διανείμω; • Ποίους διαθέτες υπηρεσιών θέλω να προμηθεύσω με δεδομένα; Διαθέτης Υπηρεσιών • Ποιες υπηρεσίες θέλω να παρέχω; • Από ποίους προμηθευτές δεδομένων θα παίρνω μεταδεδομένα; • Με ποιο τρόπο θα προσλαμβάνονται τα μεταδεδομένα; Διαθέτης Δεδομένων& Διαθέτης Υπηρεσιών • Οι διαστάσεις στις οποίες πρέπει να συμφωνήσουν: (Συχνότητα ενημέρωσης, τα format των μεταδεδομένων, τα sets, τα σχήματα των θεμάτων, την αποδεκτή χρήση).
ΕΡΓΑΛΕΙΑ ΑΝΑΠΤΥΞΗΣ ΕΦΑΡΜΟΓΩΝ ΟΑΙ • Η OAI διατηρεί μια λίστα με software tools (http://www.openarchives.org/tools/) Final Report on Technical Issues (download from http://www.oaforum.org/documents/ GNU EPrints,DSpace , FEDORA
ΔΙΑΘΕΤΗΣ ΔΕΔΟΜΕΝΩΝ:Συστατικά μέρη και αρχιτεκτονική (1/3) • SQL Database • Μεταδεδομένα για τις πηγές • Web server, πχ. Apache, IIS , • programming interface / API πχ. Perl, PHP, Java-Servlet • web server extension • identifier αρχείου/ base URL • Έναν μοναδικό identifier για κάθε item • format μεταδεδομένων (ένα η περισσότερα, υποχρεωτικά unqualified Dublin Core) • datestamps για τα μεταδεδομένα (created / last modified) • flow control (μηχανισμός ελέγχου ροής κυρίως για τα μεγάλα αρχεία)
ΔΙΑΘΕΤΗΣ ΔΕΔΟΜΕΝΩΝ:Συστατικά μέρη και αρχιτεκτονική (2/3) • Argument Parser (αξιολογεί OAI αιτήσεις) • Error Generator (δημιουργεί XML απαντήσεις με κωδικούς λαθών) • Μηχανισμό Database Query / τοπική εξαγωγή μεταδεδομένων (ακανακτά μεταδεδομένα από το αποθετήριο σύμφωνα με το αιτούμενο format). • XML Generator / Δημιουργία απάντησης (δημιουργεί XML απάντηση με κωδικοποιημένη πληροφορία. • Flow Control (δίνει τμήμα- τμήμα τα μεταδεδομένα ιδίως σε μεγάλα αποθετήρια resumption token ως μηχανισμός ελέγχου)
ΔΙΑΘΕΤΗΣ ΔΕΔΟΜΕΝΩΝ:Συστατικά μέρη και αρχιτεκτονική (3/3)
ΔΙΑΘΕΤΗΣ ΥΠΗΡΕΣΙΩΝ:διάγραμμα συστατικών μερών και αρχιτεκτονικής
XML Shemas για OAI-PMH(1/3) • To OAI-PMH χρησιμοποιεί XML Schemas για να ορίσει το format των εγγραφών • Μπορεί να ανταλλάξει μεταδεδομένα σε οποιαδήποτε format αρκεί να είναι κωδικοποιημένα σε XML και να ορίζεις ένα XML Schemas για αυτάτα format. • Το OAI-PMH ορίζει ένα oai_dc schema ως έλαχιστη προδιαγραφή διαλειτουργικότητας • Η τεκμηρίωση του OAI-PMH περιγράφει XML schema και για άλλα formats, και παρουσιάζει XML schemas για: • rcf1807 (για RFC 1807 format μεταδεδομένα) • marc21 • oai_marc (για MARC μεταδεδομένα)
XML Shemas για OAI-PMH (2/3) Δημιουργία ενός νέου schema επεκτείνοντας το oai_dc schema για να προσθέσουμε νέα στοιχεία: • Ονοματοδοσία του νέου σχήματος • Δημιουργία namespaces • Δημιουργία ενός schema για το νέο στοιχείο elements • Δημιουργία ενός 'container schema' • Έλεγχος εάν είναι valid schema / records • Πρόσθεση του στη "ListMetadataFormats" του αποθετηρίου • Πρόσθεση στο αποθετήριο (other verbs) • Έλεγχος εάν δουλεύει και εάν είναι valid
XML Shemas για OAI-PMH (3/3) Παράδειγμα πρόσθεσης ενός νέου σχήματος του ims <metadataFormat> <metadataPrefix>ims</metadataPrefix> <schema>http://www.imsglobal.org/xsd/imsmd_v1p2p2.xsd</schema> <metadataNamespace>http://www.imsglobal.org/xsd/imsmd_v1p2</metadataNamespace></metadataFormat>
ΣΥΜΠΕΡΑΣΜΑΤΑ • Η εστίαση της OAI είναι στην υψηλού επιπέδου επικοινωνία μεταξύ των συστημάτων και της απλότητας των πρωτοκόλλων. Το OAI-PMH έχει συγκεντρώσει πολλή μεγάλη προσοχή μεταξύ της κοινότητας της ηλεκτρονικής δημοσίευσης • Το πρωτόκολλο OAI για τη συγκομιδή μεταδεδομένων [ Lagoze και Van de Sompel, 2001 ] στην ουσία υποστηρίζει ένα σύστημα των διασυνδεόμενων συστατικών, όπου κάθε ένα είναι DL • Το πρωτόκολλο OAI μπορεί να θεωρηθεί ως κόλλα που δεσμεύει μαζί συστατικά ενός μεγαλύτερου DL