270 likes | 354 Vues
La numérisation de la presse à la BnF Choix documentaires – état d’avancement – aspects techniques. Journées Patrimoine écrit – 14 septembre 2007 Philippe Mezzasalma – Frédérique Joannic-Seta. Rappel.
E N D
La numérisation de la presse à la BnFChoix documentaires – état d’avancement – aspects techniques Journées Patrimoine écrit – 14 septembre 2007 Philippe Mezzasalma – Frédérique Joannic-Seta
Rappel La numérisation de la presse nationale: un programme-phare de la Bibliothèque nationale de France Lancement : 2005 Plan pluriannuel : 2005-2010 31 titres concernés(de leur origine à 1944, dernière année de numérisation). A l’origine 21 titres de PQN + 6 sup. + 3 ajouts de PQN + 1 ajout de presse régionale A terme 3,5 M de pages
Plan Éléments de contexte : les collections de presse de la BnF De la sélection à la mise en ligne : choix et procédures État d’avancement Démonstration des accès Évolution du programme de numérisation de la presse
Les collections de presse à la BnF Entrées courantes : quotidiens ou périodiques de grand format (principalement hebdomadaires), d’information générale (nationaux ou locaux) ou relevant des disciplines droit, économie, politique - 848titres, (676 entrant par le Dépôt légal) dont 222 quotidiens, soit 87 679 fascicules Fonds clos : périodiques cotés Jo, Gr fol-Jo, JoA, Job précédemment à Versailles : journaux locaux, presse professionnelle, presse partisane et syndicale, bulletins d ’associations, presse de loisirs .... 110 000 cotes au total, pour un nombre presque équivalent de titres. quotidiens ou périodiques de grand format du Département des périodiques Le fonds de microfilms : 115 000 bobines de presse, près de 7500 titres sauvegardés ; accroissement annuel d ’environ 6000 bobines : courant : tous les titres de PQN, 40 titres de PQR jusqu’à 2003, 20 depuis. rétrospectif : reproduction de périodiques Jo ; sélection des titres sur la base de corpus ou à partir des demandes de lecteurs
Les collections de presse de la BnF : communication au public Communications en Rez-de-jardin : plus de 50 000bobines de microfilms, plus de 14 000 unités de conservation du fonds clos Jo Communications de microfilms en salles D et J : sélection de 43 titres Salle A : 273 titres en libre-accès, interrogation de cédéroms ou bases de données, 165 entrées par jour
Typologie de la presse la presse nationale : presse politique et d'information générale presse populaire presse d'échos, presse satirique • la presse régionale et locale • la presse d ’outre-mer • la presse spécialisée • la presse de lecture • la presse gratuite • la presse de type publication officielle • la presse alternative
La Presse : pourquoi numériser ? Une richesse documentaire incontestable contenu exceptionnel Un ensemble en danger… auquel la numérisation offre de nouvelles perspectives => Une opération à la fois de sauvegarde et de diffusion
De la sélection à la mise en ligne Définition du plan de numérisation Enquête sur les usages attendus de la presse numérisée Aspects juridiques Sélection de l’exemplaire et recollement Choix techniques de numérisation et conséquences sur Gallica Le mode texte
La définition du corpus Un programme axé autour de la presse quotidienne nationale Un panorama représentatif du pluralisme d ’opinion, des grands titres historiques aux quotidiens populaires Une ouverture vers les régions : Ouest-Eclair Un corpus accompagné par des outils critiques : Annuaire de la presse...
Les titres retenus : plus de 3 millions de pages sur 5 ans La Croix Le Temps Le Figaro L’Humanité La Presse Le Petit Parisien Le Figaro Littéraire L’Action Française Le Journal des débats Supplément du Petit Parisien Le Matin Le Petit Journal Le Petit Journal illustré • L'Aurore • La Justice • Le Gaulois • Le Constitutionnel • L’Univers • L'intransigeant • Le Siècle • Le Rappel • Gil Blas • Gil Blas illustré • La Lanterne • Supplément de la Lanterne • L’Écho de Paris • Ouest Éclair En prévision : Les Échos, Le Canard enchaîné
Les aspects juridiques Rappel : droit d ’auteur = 70 ans à compter de la mort de l ’auteur à compter de la publication quand œuvre collective =>la presse obéit à ces règles Conséquences : Accord des titres vivants (convention) Pas de mise en ligne postérieure à 1935 Masquage éventuel des images
Préparation des documents Une décision : repartir des originaux Récolement fascicule par fascicule lacunes à compléter auprès d ’établissements extérieurs signalement des défauts physiques Préparation des supports : démontage/déreliage petites réparations dépoussiérage et repassage
Catalogage et métadonnées Choix de l’unité – fascicule Catalogage : Création dans le catalogue d’une cote numérique correspondant au titre Pour chaque cote numérique, utilisation du fichier de récolement pour lier les fascicules numériques Métadonnées : constitution par extraction des données à partir du catalogue
Numérisation 4 chaînes opérationnelles pour ce programme, dont 2 confiées à un prestataire Opérations de prise de vue et d’insertion/création des métadonnées Une numérisation de haute qualité (300 dpi – niveau de gris), TIFF non compressé pour la sauvegarde compressé en JPEG pour la diffusion
Ocr et numérisation de la presse Usages attendus : une recherche plein texte plutôt qu’une transcription =>le choix d’un OCR brut et d’une segmentation (format Alto) un niveau qualitatif minimum de 95% de reconnaissance de caractère
Titres numérisés – état au 14/09/07 Le Temps : en ligne 1861-1935 Le Figaro : en ligne 1826-1942 (lacunes 1842-1853) Le Figaro littéraire : en ligne 1876-1929 (lacunes 1896-1904 et 1915-1918) La Croix : en ligne 1883-1944 L ’Humanité : en ligne 1904-1944 (lacunes 1940-1943) La Presse : en ligne 1836-1854 Le Journal des débats : en ligne 1800-1884 NB : les lacunes signalées ici résultent des opérations de contrôle qualité, à l ’exception de l ’Humanité
Les titres en cours de numérisation En cours de numérisation : La Presse Le Journal des débats Le Petit Parisien Ouest-Eclair (édition de Caen) A suivre en 2007-2008 : Le Gaulois L’Aurore Le Monde diplomatique
Deux accès vers la presse numérisée Le catalogue Bn-Opale plus Gallica
Accès par le catalogue Accès par cote numérique Les autres recherches proposées par le catalogue sont également valides : recherche par titre, par cote de l ’original papier...
Accès par le catalogue Exemplaire numérique Visualiser
Navigation dans Le Temps 10 juillet 1861
Navigation dans Le Temps Zoom et accès au mode texte Circulation par année Circulation par jour
Améliorations attendues Dans le cadre de Gallica 2(à partir de l’été 2008) Page de présentation des titres de presse Mise en place d’un espace de travail personnel (panier, taggage des pages…) Mise en relation des titres de presse avec des documents qui leur sont consacrés (Tables du Temps ; fichier du journal Le Matin )
Numérisation de la presse à la BnF : extensions à venir Extension à l ’étude vers des corpus thématiques presse des immigrations presse des anciens territoires et colonies journaux de tranchées (BnF, BDIC, BNUS, BM Lyon, Stuttgart) presse clandestine de la Résistance presse hebdomadaire (politique, littéraire, de théâtre, de mode) Axe francophone : « Réseau des bibliothèques nationales numériques francophones »
La valorisation du corpus de presse Lien avec la recherche (équipe Montpellier III -Paris I – Paris IV) Publications prévues pour 2007 : Guide des