180 likes | 285 Vues
un outil d’aide à la transcription. Thomas PALFRAY Stéphane NICOLAS Thierry PAQUET L aboratoire d’ I nformatique, T raitement de l’ I nformation et des S ystèmes EA 4108 Université de ROUEN Faculté des sciences 76800 Saint-Etienne du Rouvray.
E N D
un outil d’aide à la transcription Thomas PALFRAY Stéphane NICOLAS Thierry PAQUET Laboratoire d’Informatique, Traitement de l’Information et des Systèmes EA 4108 Université de ROUEN Faculté des sciences 76800 Saint-Etienne du Rouvray OPTIMA, 6 novembre 2008, BnF
un outil d’aide à la transcription Les ambitions d’OPTIMA • Valorisation des grands corpus modernes • Transcription de l’avant texte, réputé illisible • Conception des outils numériques fondamentaux • Transcription • Classement OPTIMA, 6 novembre 2008, BnF
Transcription ? • Un résultat visible • lisible • une explicitation • sans interprétation • une preuve OPTIMA, 6 novembre 2008, BnF
Transcription ? • Une source numérique rendue accessible au classement • accès aux parties de documents • décrire le contenu au-delà du visuel • penser la transcription comme une base de données OPTIMA, 6 novembre 2008, BnF
Expression des besoins 1- Un langage pour décrire les contenus textuels et graphiques 2- Une interface d’aide à l’encodage 3- Visualisation des images Haute Définition 4- Visualisation des transcriptions (diplomatique?) OPTIMA, 6 novembre 2008, BnF
1. Langage d’encodage Définition informatique d’une transcription • Repose sur XML: langage des BD semi-structurées • HNML + GustaveML + besoins spécifiques • DTD établie début 2008 • Dernières modifications aout 2008 OPTIMA, 6 novembre 2008, BnF
1. Langage d’encodage Ajout interlinéaire : Flaubert - Proust Balise Interligne Elle permet d'indiquer quel interligne est utilisé (Supérieur ou Inférieur). Pour un interligne situé dans le corps de texte, on utilise le mot du corps de texte pour indiquer à la visualisation diplomatique ou débute l'interligne. Exemple: l'interligne débute après le i de "villa" Codage: vi<int pl="top">de Cale o loco</int>lla OPTIMA, 6 novembre 2008, BnF
1. Langage d’encodage bloc de texte : Proust Balise Bloc On utilise le type bloc de texte pour délimiter les blocs composant le document. Le transcripteur indique les positions successives des points entourant le bloc. La forme est de type polyèdre, ainsi, quelque soit la forme du bloc, on peut délimiter celui-ci et le visualiser sur la diplomatique. Codage: <Bloc type="txt"> [coordonnées des points du bloc] </Bloc> OPTIMA, 6 novembre 2008, BnF
1. Langage d’encodage bloc image : Braudel Balise bloc On utilise un type de bloc particulier, appelé bloc "Image". Le transcripteur indique ainsi que le contenu de ce bloc n'est pas un texte, mais un tampon que l'on ne peut rendre avec une transcription. La portion d'image ainsi délimitée est ajoutée à la visualisation diplomatique du document transcrit. Codage: <Bloc type="img"> [coordonnées des points du bloc] </Bloc> OPTIMA, 6 novembre 2008, BnF
1. Langage d’encodage ajout en marge : Flaubert - Proust Non géré actuellement OPTIMA, 6 novembre 2008, BnF
1. Langage d’encodage • <!DOCTYPE transcription [ • <!ELEMENT transcription (Image)+> • <!ELEMENT Image (Bloc)*> • <!ATTLIST Image titre #CDATA #REQUIRED coefDimensionLargeur #CDATA #REQUIRED coefDimensionHauteur #CDATA #REQUIRED> • <!ELEMENT Bloc Point*,Texte+> • <!ATTLIST Point X #CDATA #REQUIRED Y #CDATA #REQUIRED> • <!ATTLIST Bloc idBloc #CDATA #REQUIRED type (img,txt) #REQUIRED> • <!ELEMENT Texte (auteur|cs|stylo|lb|p|dp|lp|rp|u|str|nl|bl|strblock|overwrite|int|nr|b|sp|hyphen|ind|exp|frac|rac|abbr|hyp|titre|rv|#PCDATA)*> • <!ELEMENT auteur (ANY)> • <!ATTLIST auteur name (#CDATA) #REQUIRED> • <!ELEMENT cs (ANY)> • <!ELEMENT stylo (ANY)> • <!ATTLIST stylo p (encre,stylo,crayon,imprime) #REQUIRED c (#CDATA) #REQUIRED> • <!ELEMENT lb (ANY)> • <!ELEMENT p (ANY)> • <!ATTLIST p indent (#CDATA) #REQUIRED> • <!ELEMENT dp (ANY)> • <!ELEMENT lp (ANY)> • <!ELEMENT rp (ANY)> • … • <!ELEMENT Svg (#PCDATA)*> • ]> OPTIMA, 6 novembre 2008, BnF
2. Interface d’aide à l’encodage 1. Saisie du texte et aide à l’encodage OPTIMA, 6 novembre 2008, BnF
3. Visualisation des images HD • Fonctionnalités images • zoom • rotation • saisie de blocs • mesure OPTIMA, 6 novembre 2008, BnF
4. Visualisation des transcriptions • Faire passer un système d’écriture non standard dans un système d’édition électronique normalisé • Transcription diplomatique ? • linéarisée • diplomatique horizontale • diplomatique horizontale avec éléments graphiques • diplomatique inclinée régulière • diplomatique inclinée régulière avec éléments graphiques • Très dépendant de l’utilisateur et du corpus • Accepter une certaine distorsion OPTIMA, 6 novembre 2008, BnF
4. Visualisation des transcriptions OPTIMA, 6 novembre 2008, BnF
Choix Technologiques Plateforme Java : - dev indépendant de la machine - permet la manipulation des images HD - pas de technologies Web - IHM en SWING - rendu codé en SVG et visualisé avec BATIK (Apache) OPTIMA, 6 novembre 2008, BnF
Bilan et Perspectives • Format de Transcription Numérique: achevé (version 1) • Saisie du balisage: achevée (version 1) • Sauvegarde: en cours de validation • Visualisation diplomatique: 40% achevé • Test et validation : à continuer !! • Utilisateurs = bTesteurs OPTIMA, 6 novembre 2008, BnF
Bilan et Perspectives • - Un outil numérique ambitieux au regard du temps disponible (1 an) • Un prototype en passe d’être achevé grâce à des échanges réguliers • A transformer en une réelle application informatique validée • Génie Logiciel = Cycle de production industrielle • Transcrire la masse? OPTIMA, 6 novembre 2008, BnF