1 / 28

Introduction à l’utilisation des corpus 2. Comment constituer un corpus?

Introduction à l’utilisation des corpus 2. Comment constituer un corpus?. Questions abordées. 2. Comment constituer un corpus ? Comment trouver des textes ? Ou et comment trouver des ressources (glossaires, dictionnaires, corpus parallèles) ?

brier
Télécharger la présentation

Introduction à l’utilisation des corpus 2. Comment constituer un corpus?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introduction à l’utilisation des corpus2. Comment constituer un corpus?

  2. Questions abordées • 2. Comment constituer un corpus ? • Comment trouver des textes ? Ou et comment trouver des ressources (glossaires, dictionnaires, corpus parallèles) ? • Comment exploiter au mieux les fonctionnalités des moteurs de recherche? • Comment choisir quel texte inclure ou pas dans le corpus ? • Sous quelle forme faut-il le stocker pour qu’il soit facilement utilisable ? (rappel : formats de fichiers)

  3. Rappel : quel type de corpus ? • On va constituer un mini corpus • Électronique • Bilingue comparable (quelles langues? ) • D’originaux (éviter les auteurs locuteurs non-natifs) • Synchronique • Annoté? Ou bien forme de textes bruts? • Ouvert : constamment enrichi • De spécialité. Domaines/sous-domaines couverts ? Exemples : • Le volcans de boue • Le circuit de l’eau dans les sols • Les montagnes

  4. Où trouver des textes? • 1/ Science Direct (www.sciencedirect.com) • ¼ de la littérature scientifique, médicale et technique en ligne • plus de 2.000 journaux, centaines de livres, manuels • accès uniquement sur le campus • droits d’auteur ;-) 2/ PLOS (Public Library of Science) : http://www.plos.org/ 3/ Liens « périodiques et littérature grise » de Mme Geneviève Bordet. E.x. http://docinsa.insa-lyon.fr/sapristi/trouver-20.php http://www.inria.fr/rrrt/index.fr.html

  5. Où trouver des textes? 4/ www.sudoc.abes.fr (recherche de thèses) 5/ ENT de l’université Paris Diderot : - HAL - GEOBASE 6/ Recherche sur Internet

  6. Recherche documentaire sur Internet Comment choisir ? • Internet n’est pas une grande bibliothèque. Tout n’est pas crédible. • Avant d’inclure un texte récupéré sur Internet vérifier : • la date de mise ajour du site • qui est l’auteur de la page ? • le texte a été écrit par un locuteur natif? • quelle institution cautionne le contenu? Cette information devra, en partie, être incluse dans la source bibliographique de chaque texte inclus dans le corpus !!!

  7. Google: comment l’utiliser au mieux ? Comment cibler au mieux les résultats formuler  résultats plus pertinents • http://www.googleguide.com/ • Google Hacks - 100 Industrial-Strength Tips & Tricks Tara Calishain, Rael Dornfest, O’Reilly

  8. Google : syntaxe de base • pomme de terre  (AND implicite) • « pomme de terre » • Paris OR London • hôtel (Paris OR London) • Bush -George –president • Bush • BUSH • bush • écri* ????? • «  trois * raisons   »  caractère joker • glossary OR vocabulary OR lexicon~glossary

  9. Google: syntaxes spéciales • Opérateurs google • intitle: • inurl: • intext: • inanchor: • site: • link: • filetype: • related: • define: Et plein d’autres!!! L’ordre des termes de la requête et la répétition peuvent affecter les résultats.

  10. Autres questions • Que faire si une page n’existe plus? • vérifier si elle existe encore en cache (retrouve une page que Googlea indexée) • www.webarchive.org • Où trouver des glossaires et corpus parallèles? • http://www.multilingual.ch

  11. Un dernier Googlehack Chercher sur Google le terme hydracefallus et limiter les résultats aux fichiers de type .pdf.

  12. Comment stocker les textes ?

  13. EXTENSIONS Parenthèse : formats des fichiers • Moyen d’encoder de l’information afin de la stocker sur l’ordinateur. • IMAGES uniquement : .jpg, .png, etc • Formats de fichiers ‘documents’ • sans aucun formatage : .txt : uniquement des caractères textuels ordinaires • formatés : • .doc : formats propriétaires Microsoft • .rtf : formats propriétaires Microsoft : Lisible, inter-opérable • .odt (OpenOffice Text Doc) : logiciel libre sources disponibles • .html, .xml : langages à balises • .pdf : format propriétaire de Adobe Systems, même si ouvert • préserve polices, images, graphiques et la mise en forme

  14. (Observer la taille des documents) Démonstration : comparaison entre les documents de type .txt, .doc, .html, .rtf, .odt

  15. A lire : Formats de fichiers (documentation de l’équipe système de l’UFR EILA) : www.eila.univ-paris-diderot.fr/sysadmin/gestion-docs/formats

  16. Fichiers texte /vs/ binaires • Fichiers texte : contenu pouvant être interprété comme du texte. Suite de caractères d’un ensemble donné. • en codage ASCII ou une extension de ASCII (UTF-8, UTF-16 ou extension régionale). Exemples : fichiers .XML ; .txt • Le contenu d'un fichier binaire n'est pas du texte et correspond souvent à un format précis. • fichier exécutable ; • fichier de base de données structuré en enregistrements de taille fixe ou variable ; • document de traitement de texte ; • fichiers multimédias : images, sons, vidéos.

  17. Encodage des caractères • associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers. • Exemples d’encodage : • Le code Morse • Le code ASCII • ISO-8859-1 • UNICODE

  18. Encodage des caractères • associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers. • Exemples d’encodage : • Le code Morse

  19. Encodage de caractères I • US-ASCII (1967): American Standard Code of Information Interchange • Lettres (alphabète anglais), numéraux, ponct • 7 bits (128 codes) 98 signes définis • Ex : • A : 065, B : 066, C : 067 • a : 097, b : 098, c : 099, etc. • Très limité  extensions.

  20. Encodage des caractères II • ISO 8859 (1987) : International Standards Organization • étend US-ASCII en ajoutant les caractères accentués – 8 bits (256 codes) 191 signes définis • ISO 8859-1 : Europe le l’Ouest • 8859-2 : Latin 2, Europe de l’Est • 8859-3 : Latin 3, Europe du Sud Est • 8859-4 : Latin 4, Scandinavie, Baltique • 8859-5 : cyrillique • 8859-6 : arabe, 8859-7 : grec, etc

  21. Encodage des caractères III • Approche systématique : UNICODE (norme d’encodage) : tous les systèmes d’écriture (100.000 caractères)  permet le mélange de langues • Permet l’encodage de toutes les langues vivantes et mortes • UTF-8 (8-bit UCS/Unicode Transformation Format) un format d’encodage pour UNICODE • UTF-16

  22. Formats des fichiers : comment stocker le corpus ? CORPUS_PRENOM_NOM ANGLAIS ALLEMAND FRANCAIS Référence biblio dans la BD Termino !!!!! SOURCES TEXTES BAUM_1996.pdf BAUM_1996.txt

  23. Comment citer la source ? • Quels champs indiquer pour chaque type de document ? (JabRef) : • Article : Auteur|Auteur et al. (2008). Titre. Revue, Vol, No., pages • Site web : Titre, (Auteur|institution), Url (localisation), date de consultation. • Livre : Auteur|Auteur et al. (2008). Titre. Maison d’édition (collection)

  24. Comment citer la source ? • Thèse de doctorat : Auteur.(2008). Titre. Ecole. (directeur de recherche) • Actes de colloque : Auteur(2008). Tire. Conférence (Date, Lieu), pages ou adresse URL.

  25. Parenthèse : formats des fichiers • Démonstration : comment stocker les fichiers constituant son corpus ?

  26. Que faire avec les fichiers PDF ? • Portable Document Format • créé par Adobe Systems • préserve la mise en forme (polices, images, objets graphiques…) quelles que soient l'application et la plate-forme • PDF est un format ouvert (Adobe Systems autorise des programmes tiers à réutiliser son format), mais se réserve la propriété de nombreux brevets déposés et donc le droit de demander des redevances. • les spécifications sont publiques et utilisables librement et gratuitement (à l'exception de quelques très importantes sociétés commerciales).

  27. Que faire avec les fichiers PDF ? • Si aucun autre format n’est pas disponible (vérifier, écrire des mails, etc !!): • Utiliser les logiciels OCR. Exemple : Omnipage ! Démonstration. • Utiliser la version démo de Acrobat 8 Professional (30 jours seulement!). Démo. • Vérifier l’intégrité du texte scanné (surtout lorsqu’il s’agit de texte en colonnes, avec images).

  28. Quel format pour le stockage ? • Créer un répertoire CORPUS_NOM_PRENOM • Créer les sous-répertoires ANGLAIS & FRANCAIS (non pas FRANÇAIS) • Stocker dans les deux des articles convertis en format .txt, avec l’encodage UFT-8 • Nom du fichier : • le nom de l’auteur + • - + • année de publication + • a,b,c (optionnel, si plusieurs articles de la même année) + • .txt • Ex : DUPONT_2006.txt UTILISEZ NOTEPAD PLUTÔT QUE WORDPAD POURQUOI ???

More Related