200 likes | 225 Vues
Learn how the collaboration between University of Michigan and University of California enabled the transformation of Internet Archive materials into HathiTrust-compatible AIPs through the use of PREMIS events documentation.
E N D
September 22, 2010 Use of PREMIS for Internet Archive AIPs
Overview • University of Michigan and University of California worked together to develop ingest processes for Internet Archive content • IA materials did not match previously developed standards for HathiTrust materials • Solutions were developed to transform IA materials into HathiTrust-compatible AIPs • Discuss our use of PREMIS events to document processes and transformations
HathiTrust Overview • Launched in 2008 by CIC and University of California system libraries to archive and share digital collections • Partnership is open to institutions worldwide • Currently: • Nearly 30 partners • 6.6 million digital volumes • 1.3 million public domain • 247 terabytes
<PREMIS:event> <PREMIS:eventIdentifier> <PREMIS:eventIdentifierType>Internet Archive</PREMIS:eventIdentifierType> <PREMIS:eventIdentifierValue>capture1</PREMIS:eventIdentifierValue> </PREMIS:eventIdentifier> <PREMIS:eventType>capture</PREMIS:eventType> <PREMIS:eventDateTime>2008-08-04T19:50:13</PREMIS:eventDateTime> <PREMIS:eventDetail>Initial capture of item</PREMIS:eventDetail> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>AgentID</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>Internet Archive</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>Executor</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>scribe7.la.archive.org</PREMIS:linkingAgentIdentifier Value> <PREMIS:linkingAgentRole>image capture</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> </PREMIS:event>
<PREMIS:event> <PREMIS:eventIdentifier> <PREMIS:eventIdentifierType>UM</PREMIS:eventIdentifierType> <PREMIS:eventIdentifierValue>fixity check1</PREMIS:eventIdentifierValue> </PREMIS:eventIdentifier> <PREMIS:eventType>fixity check</PREMIS:eventType> <PREMIS:eventDateTime>2010-04-27T16:34:02</PREMIS:eventDateTime> <PREMIS:eventDetail>Calculation of md5 hash values for downloaded IA files, comparison with pre-download md5 values</PREMIS:eventDetail> <PREMIS:eventOutcomeInformation> <PREMIS:eventOutcome>warning</PREMIS:eventOutcome> <PREMIS:eventOutcomeDetail> <PREMIS:eventOutcomeDetailNote>files failed checksum validation</PREMIS:eventOutcomeDetailNote> <PREMIS:eventOutcomeDetailExtension> <HT:fileList status="failed"> <HT:file>arcanacaelestiah03swed_files.xml</HT:file> <HT:file>arcanacaelestiah03swed_meta.xml</HT:file> </HT:fileList> ….
… </PREMIS:eventOutcomeDetailExtension> </PREMIS:eventOutcomeDetail> </PREMIS:eventOutcomeInformation> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>AgentID</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>UM</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>Executor</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>md5sum</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>software</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> </PREMIS:event>
<PREMIS:event> <PREMIS:eventIdentifier> <PREMIS:eventIdentifierType>UM</PREMIS:eventIdentifierType> <PREMIS:eventIdentifierValue>package inspection1</PREMIS:eventIdentifierValue> </PREMIS:eventIdentifier> <PREMIS:eventType>package inspection</PREMIS:eventType> <PREMIS:eventDateTime>2010-04-27T16:34:01</PREMIS:eventDateTime> <PREMIS:eventDetail>Inspection of IA download package for missing files</PREMIS:eventDetail> <PREMIS:eventOutcomeInformation> <PREMIS:eventOutcome>pass</PREMIS:eventOutcome> </PREMIS:eventOutcomeInformation> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>AgentID</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>UM</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>Executor</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>ingest_ia_volumes.pl</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>software</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> </PREMIS:event>
<PREMIS:event> <PREMIS:eventIdentifier> <PREMIS:eventIdentifierType>UM</PREMIS:eventIdentifierType> <PREMIS:eventIdentifierValue>mod1_image_header</PREMIS:eventIdentifierValue> </PREMIS:eventIdentifier> <PREMIS:eventType>image header modification</PREMIS:eventType> <PREMIS:eventDateTime>2010-04-27T16:34:29</PREMIS:eventDateTime> <PREMIS:eventDetail>Image header modification to HathiTrust conventions</PREMIS:eventDetail> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>AgentID</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>UM</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>Executor</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>ingest_ia_volumes.pl</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>software</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> …
<PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>exiftool</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>software</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> </PREMIS:event>
<PREMIS:event> <PREMIS:eventIdentifier> <PREMIS:eventIdentifierType>UM</PREMIS:eventIdentifierType> <PREMIS:eventIdentifierValue>mod2_file_rename</PREMIS:eventIdentifierValue> </PREMIS:eventIdentifier> <PREMIS:eventType>file rename</PREMIS:eventType> <PREMIS:eventDateTime>2010-04-27T16:34:03</PREMIS:eventDateTime> <PREMIS:eventDetail>File renaming to HathiTrust conventions</PREMIS:eventDetail> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>AgentID</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>UM</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>Executor</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>ingest_ia_volumes.pl</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>software</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> </PREMIS:event>
<PREMIS:event> <PREMIS:eventIdentifier> <PREMIS:eventIdentifierType>UM</PREMIS:eventIdentifierType> <PREMIS:eventIdentifierValue>mod3_ocr_split</PREMIS:eventIdentifierValue> </PREMIS:eventIdentifier> <PREMIS:eventType>ocr split</PREMIS:eventType> <PREMIS:eventDateTime>2010-04-27T16:34:05</PREMIS:eventDateTime> <PREMIS:eventDetail>Splitting of IA XML OCR into one plain text OCR file and one XML file (with coordinates) per page</PREMIS:eventDetail> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>AgentID</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>UM</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>Executor</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>ingest_ia_volumes.pl</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>software</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> </PREMIS:event>
<PREMIS:event> <PREMIS:eventIdentifier> <PREMIS:eventIdentifierType>UM</PREMIS:eventIdentifierType> <PREMIS:eventIdentifierValue>mod4_ia_mets_creation</PREMIS:eventIdentifierValue> </PREMIS:eventIdentifier> <PREMIS:eventType>ia mets creation</PREMIS:eventType> <PREMIS:eventDateTime>2010-04-27T16:34:30</PREMIS:eventDateTime> <PREMIS:eventDetail>Creation of IA METS file</PREMIS:eventDetail> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>AgentID</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>UM</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>Executor</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>ingest_ia_volumes.pl</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>software</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> </PREMIS:event>
<PREMIS:event> <PREMIS:eventIdentifier> <PREMIS:eventIdentifierType>UM</PREMIS:eventIdentifierType> <PREMIS:eventIdentifierValue>message digest calculation1</PREMIS:eventIdentifierValue> </PREMIS:eventIdentifier> <PREMIS:eventType>message digest calculation</PREMIS:eventType> <PREMIS:eventDateTime>2010-04-27T16:34:30</PREMIS:eventDateTime> <PREMIS:eventDetail>Calculation of page-level md5 checksums</PREMIS:eventDetail> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>AgentID</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>UM</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>Executor</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>md5sum</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>software</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> </PREMIS:event>
<PREMIS:event> <PREMIS:eventIdentifier> <PREMIS:eventIdentifierType>UM</PREMIS:eventIdentifierType> <PREMIS:eventIdentifierValue>validation1</PREMIS:eventIdentifierValue> </PREMIS:eventIdentifier> <PREMIS:eventType>validation</PREMIS:eventType> <PREMIS:eventDateTime>2010-04-27T16:34:30</PREMIS:eventDateTime> <PREMIS:eventDetail>IA METS validation</PREMIS:eventDetail> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>AgentID</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>UM</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>Executor</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>Xerces-C</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>software</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> </PREMIS:event>
<PREMIS:object xsi:type="PREMIS:representation"> <PREMIS:objectIdentifier> <PREMIS:objectIdentifierType>identifier</PREMIS:objectIdentifierType> <PREMIS:objectIdentifierValue>uc2.ark:/13960/t2p55qw6d</PREMIS:objectIdentifierValue> </PREMIS:objectIdentifier> <PREMIS:preservationLevel> <PREMIS:preservationLevelValue>1</PREMIS:preservationLevelValue> </PREMIS:preservationLevel> <PREMIS:significantProperties> <PREMIS:significantPropertiesType>file count</PREMIS:significantPropertiesType> <PREMIS:significantPropertiesValue>1584</PREMIS:significantPropertiesValue> </PREMIS:significantProperties> <PREMIS:significantProperties> <PREMIS:significantPropertiesType>page count</PREMIS:significantPropertiesType> <PREMIS:significantPropertiesValue>528</PREMIS:significantPropertiesValue> </PREMIS:significantProperties> </PREMIS:object>
<PREMIS:event> <PREMIS:eventIdentifier> <PREMIS:eventIdentifierType>UM</PREMIS:eventIdentifierType> <PREMIS:eventIdentifierValue>transformation1</PREMIS:eventIdentifierValue> </PREMIS:eventIdentifier> <PREMIS:eventType>transformation</PREMIS:eventType> <PREMIS:eventDateTime>2010-04-27T16:34:30</PREMIS:eventDateTime> <PREMIS:eventDetail>Transformation of files for ingest: mod1-mod4 in IA METS</PREMIS:eventDetail> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>AgentID</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>UM</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>Executor</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>ingest_ia_volumes.pl</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>software</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> </PREMIS:event>
<PREMIS:event> <PREMIS:eventIdentifier> <PREMIS:eventIdentifierType>UM</PREMIS:eventIdentifierType> <PREMIS:eventIdentifierValue>page feature mapping1</PREMIS:eventIdentifierValue> </PREMIS:eventIdentifier> <PREMIS:eventType>page feature mapping</PREMIS:eventType> <PREMIS:eventDateTime>2010-04-27T16:35:48</PREMIS:eventDateTime> <PREMIS:eventDetail>Map original page feature tags to HathiTrust</PREMIS:eventDetail> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>AgentID</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>UM</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>Executor</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>GROOVE</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>software</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> </PREMIS:event>
<PREMIS:event> <PREMIS:eventIdentifier> <PREMIS:eventIdentifierType>UM</PREMIS:eventIdentifierType> <PREMIS:eventIdentifierValue>fixity check1</PREMIS:eventIdentifierValue> </PREMIS:eventIdentifier> <PREMIS:eventType>fixity check</PREMIS:eventType> <PREMIS:eventDateTime>2010-04-27T16:34:39</PREMIS:eventDateTime> <PREMIS:eventDetail>Validation page-level md5 checksums</PREMIS:eventDetail> <PREMIS:eventOutcomeInformation> <PREMIS:eventOutcome>pass</PREMIS:eventOutcome> </PREMIS:eventOutcomeInformation> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>AgentID</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>UM</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>Executor</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>md5sum</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>software</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> </PREMIS:event>
<PREMIS:event> <PREMIS:eventIdentifier> <PREMIS:eventIdentifierType>UM</PREMIS:eventIdentifierType> <PREMIS:eventIdentifierValue>ingestion1</PREMIS:eventIdentifierValue> </PREMIS:eventIdentifier> <PREMIS:eventType>ingestion</PREMIS:eventType> <PREMIS:eventDateTime>2010-04-27T16:35:48</PREMIS:eventDateTime> <PREMIS:eventDetail>Ingestion of object package into repository</PREMIS:eventDetail> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>AgentID</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>UM</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>Executor</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>GROOVE</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>software</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> </PREMIS:event>
<PREMIS:event> <PREMIS:eventIdentifier> <PREMIS:eventIdentifierType>UM</PREMIS:eventIdentifierType> <PREMIS:eventIdentifierValue>validation1</PREMIS:eventIdentifierValue> </PREMIS:eventIdentifier> <PREMIS:eventType>validation</PREMIS:eventType> <PREMIS:eventDateTime>2010-04-27T16:35:18</PREMIS:eventDateTime> <PREMIS:eventDetail>Validation of object components</PREMIS:eventDetail> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>AgentID</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>UM</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>Executor</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>GROOVE</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>software</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifier> <PREMIS:linkingAgentIdentifierType>tool</PREMIS:linkingAgentIdentifierType> <PREMIS:linkingAgentIdentifierValue>jhove1.5</PREMIS:linkingAgentIdentifierValue> <PREMIS:linkingAgentRole>software</PREMIS:linkingAgentRole> </PREMIS:linkingAgentIdentifier> </PREMIS:event>