310 likes | 442 Vues
Transcription, annotation et indexation de manuscrits anciens. Sylvie Calabretto sylvie.calabretto@insa-lyon.fr LIRIS - INSA DE LYON Journée Connaissances et Document - 6 octobre 2003. Le projet européen BAMBI. BAMBI : Better Access to Manuscripts and
 
                
                E N D
Transcription, annotation et indexation de manuscrits anciens Sylvie Calabretto sylvie.calabretto@insa-lyon.fr LIRIS - INSA DE LYON Journée Connaissances et Document - 6 octobre 2003
Le projet européen BAMBI • BAMBI : Better Access to Manuscripts and • Browsing of Images (Programme Libraries) • Composition du consortium : • ACTA S.p.A (Italie) • Biblioteca Nazionale Centrale di Roma (Italie) • Comitato Nazionale delle Ricerche - Istituto di Linguistica Computazionale di Pisa (Italie) • Consorzio Pisa Ricerche (Italie) • Max Planck Institut für Rechtsgeschichte (Allemagne) • LISI (France)
Objectifs • Consultation de manuscrits par un plus large public • Préservation des manuscrits • Meilleure lisibilité des textes • Informations précises et outils de recherche pour les chercheurs en Histoire des Textes • Possibilité de partager des annotations
La station philologique • La station permet de : • Visualiser l’image d’un document source (un manuscrit) avec une haute résolution, • transcrire, annoter et indexer le texte contenu dans les images, • visualiser la transcription et l’index dans une fenêtre adjacente à celle du document source, • faire correspondre automatiquement chaque mot de la transcription avec la portion de l’image source dans lequel le mot est trouvé, • exporter des information sur les manuscrits au format SGML/HyTime
Città Segnatura ms Supporto Data Consistenza Tipologia Scrittura Intestazione: Autore Titolo Incipit Segnatura microfilm Marca pellicola Passo N°fotogrammi Data riproduzione Note Fotogrammi globali Cod. MS Méta-données
Session de Recherche • Recherche multi-critères • par métadonnées • auteur, date, bibliothèque, ... • par mots-clés
Aide à la transcription • Transcription = processus visant à noter la prononciation d’une langue donnée à l’aide d’un système de signes d’une langue de conversion • abréviations syllabiques (« It » pour Item) • abréviations par suspension (« ac. » pour Accurcius) • utilisation de signes spéciaux ( pour « et »)
Indexation : Index verborum et Index locorum
Annotations • Deux types d’annotation : • les commentaires libres (fond), • les variantes de textes (synonymes ou corrections de syntaxe) (forme).
Le filtre SGML/HyTime • Exporter les informations relatives à une page de manuscrit au format SGML. • SGML est une Norme Internationale • elle assure la pérennité de l’information • elle assure l’indépendance des informations par rapport aux logiciels et aux matériels • elle permet la génération d ’une application BAMBI Web (information exchange through INTERNET)
La DTD BAMBI • Les informations à modéliser : • Description du manuscrit (titre, auteur, bibliothèque, ...) • Les bookmarks • Liens entre chaque mot de la transcription et le mot correspondant dans l’image
La DTD BAMBI (1/3) <!-- DTD for a class of document exported from BAMBI project -- > <!ENTITY % doctype "MANUSCRI" > <!-- Document STRUCTURE --> <!-- ELEMENTS MIN CONTENT (EXCEPTIONS) -- > <!ELEMENT %doctype; - - (InfoManu, Pages*, Fin?) > <!ELEMENT InfoManu - - (UserName,Title,Author,Library,Incipit,Material,Date,Size, Languages,Handwriting,Bookmark*) > <!ELEMENT UserName - - (#PCDATA) > <!ELEMENT Title - - (#PCDATA) > <!ELEMENT Author - - (#PCDATA) > <!ELEMENT Library - - (#PCDATA) > <!ELEMENT Incipit - - (#PCDATA) > <!ELEMENT Material - - (#PCDATA) > <!ELEMENT Date - - (#PCDATA) > <!ELEMENT Size - - (#PCDATA) > <!ELEMENT Languages - - (#PCDATA) > <!ELEMENT Handwriting - - (#PCDATA) > <!ELEMENT (Bookmark | Fin)- - (#PCDATA) >
La DTD BAMBI (2/3) <!-- Page STRUCTURE --> <!ELEMENT Pages - - (Image,Transcri)+ > <!ELEMENT Image - - (CoorMots*) +graphic > <!ENTITY % CoordXY "(X1,Y1,X2,Y2)" > <!ELEMENT CoorMots - - (%CoordXY;) > <!ELEMENT (X1,Y1,X2,Y2) - - (#PCDATA) > <!ENTITY % Annot "(Annot1|Annot2|Annot3|Annot4|Annot5|Annot6)" > <!ELEMENT Transcri - - (Curpage,(Column,Ligne,Mots+,(%Annot;)*))*> <!ELEMENT Curpage - - (#PCDATA) > <!ELEMENT Column - - (#PCDATA) > <!ATTLIST Column NumCol CDATA #REQUIRED > <!ELEMENT Ligne - - (#PCDATA) > <!ATTLIST Ligne NumLine CDATA #REQUIRED > <!ELEMENT Mots - - (#PCDATA|Mots*) > <!ATTLIST Mots Police CDATA #IMPLIED >
La DTD BAMBI (3/3) <!ELEMENT (Annot1|Annot2|Annot3|Annot4|Annot5|Annot6) - - (#PCDATA) > <!-- Attribute definition Lists --> <!-- Entity-name contents --> <!ENTITY MAP1 "<X1> <!USEMAP MAP-INX1>" > <!ENTITY MAP2 "</X1> <Y1> <!USEMAP MAP-INY1>" > <!ENTITY MAP3 "</Y1> <X2> <!USEMAP MAP-INX2>" > <!ENTITY MAP4 "</X2> <Y2> <!USEMAP MAP-INY2>" > <!ENTITY MAP5 "</Y2> </CoorMots>" > <!-- Mapname delimiter Entity-name --> <!SHORTREF MAP-X1 "(" MAP1 > <!SHORTREF MAP-INX1 "," MAP2 > <!SHORTREF MAP-INY1 "," MAP3 > <!SHORTREF MAP-INX2 "," MAP4 > <!SHORTREF MAP-INY2 ")" MAP5 > <!-- Mapname element --> <!USEMAP MAP-X1 CoorMots >
Description de manuscrit (Instanciation de DTD) <INFOMANU> <USERNAME>Mario</USERNAME> <TITLE>Diario del viaggio in Terra Santa 1559</TITLE> <AUTHOR>Luca da Gubbio</AUTHOR> <LIBRARY>1</LIBRARY> <INCIPIT>Unknown</INCIPIT> <MATERIAL>Cartaceo</MATERIAL> <DATE>Sec. XVI 2° Meta</DATE> <SIZE>CC 98</SIZE> <HANDWRITING>8</HANDWRITING> <BOOKMARK> Diario del viaggio in Terra Santa 1559 : c4r</BOOKMARK> <BOOKMARK> Diario del viaggio in Terra Santa 1559 : c5r</BOOKMARK> </INFOMANU>
Liens entre parties d’image et partie de texte <IMAGE> <HYLOC> <HOTSPOT ID=H1_1_1 GRAPHIC = Image5 REF=T1_1_1 RX= «205,02» RY=«75,64» RW=«128,52» RH=«69,54» ..... </HYLOC> </IMAGE> <TRANSCRI> <CURPAGE>c4r</CURPAGE> <COLUMN NumCol=1> <LINE Numline=1> <LINK ID=T1_1_1 LINKEND=H1_1_1>I(tem)</LINK> ............... </LINE> </COLUMN> </TRANSCRI>
L’après BAMBI • Projet SyDoM (Système Documentaire Multilingue) • 1 thèse (+ 1 en octobre), 2 stagiaires CNAM • Projet STEMA (Station de Travail pour l ’Etude des Manuscrits Anciens sur le Web) • Programmes d’Actions Intégrés (P.A.I) MAE-MENRT Galilée 99, projet franco-italien entre le LISI et le CNR- Pise • Projet DiPhiloS • Ministero per i Beni e le Attività Culturali
Le projet SyDoM • Objectif : • Méthode d’indexation sémantique et de recherche de documents multilingues • Propositions : • Un nouveau modèle de graphes pour représenter les documents et les requêtes • Définition d'un nouveau thésaurus • Définition d’un nouvel opérateur de projection
Niveau conceptuel Ensemble des types de relations Ensemble des types de concepts T2 T observation permettant de contrôler les données et les conditions étudiées tc1 tc2 tr1 tr2 tc1.1 tc1.2 tc2.1 machine qui transforme une forme d’énergie en énergie mécanique Relation de spécialisation tc1.2.1
Niveau terminologique Ensemble des vocabulaires Ensemble des types de concepts T Vocabulaire anglais Engine Experimentation tc1 tc2 tc1.1 tc1.2 tc2.1 Expérimentation tc1.2.1 Vocabulaire français Moteur
LesGraphesSémantiques Un arc Un type de concept « Tom réalise une expérimentation sur un moteur » tr1 tr2 2 1 2 1 tc1.1 tc1.2 tc2.1 Un terme label d’un type de concept 1 agent patient 2 2 1 Personne Expérimentation Moteur
Perspectives • BAMBI/DiPhiloS en open source • Module de traitement d’image à réécrire • Module d’indexation sémantique multilingue à intégrer
Publications BONNATERRE O., BOZZI A., CALABRETTO S. and al., Better Access to Manuscripts and Browsing of Images : Aims and results of an European Research project in the field of digital Libraries BAMBI Lib-3114. CLUEB (Bologne), 1997, 176 pages, ISBN N° 88-8091-569-X. CALABRETTO S., PINON J.M., BOZZI A. BAMBI : Système de Gestion de Manuscrits Anciens pour Historiens. Revue Document Numérique. Ed. HERMES, Volume 2, n° 3-4, Numéro spécial sur les Bibliothèques Numériques, 1998. pp. 31-50. ISBN 2-86601-738-2, ISSN 1279-5127 CALABRETTO S., BOZZI A. The Philological Workstation BAMBI (Better Access to Manuscripts and Browsing of Images). International Journal of Digital Libraries. 1998. Volume 1, Issue 3 http://jodi.ecs.soton.ac.uk/Articles/v01/i03/Calabretto/
Publications BOZZI A., CALABRETTO S. Digital Library and Computational Philology : the BAMBI (LIB -3114) project. Proceedings of the First European Conference on Research and Advanced Technology for Digital Libraries. Lecture Notes in Computer Science N°1324 (Springer Verlag). Eds. C. Peters and C. Thanos. Pisa, Italie. September 1-3, 1997. pp. 269-285. ISBN 3-540-63554-8 CALABRETTO S., PINON J.M. Modelling of a medieval manuscript database with HyTime. In: Proceedings of ICCC/IFIP Conference on Electronic Publishing : EP'97. New Models and Opportunities. The University of Kent at Canterbury, Great Britain. April 14-16, 1997. Edited by Fytton Rowland and Jack Meadows. ICCC Press, Washington, pp. 336-345. ISBN 1-891365-00-2 PINON J.M., CALABRETTO S., BOZZI A. Numérisation des manuscrits médiévaux : le projet européen BAMBI. In : Colloque du Centre Jacques Cartier. Vers une nouvelle érudition. Numérisation et recherche en histoire du livre. Lyon, 6-7 décembre 1999