1 / 87

Trouver au lieu de chercher : on ne trouve pas TOUT sur le WEB mais de TOUT …

Trouver au lieu de chercher : on ne trouve pas TOUT sur le WEB mais de TOUT …. Patrick Gay - GIBIPO & Patrick Johner - CRDP Formation sur les recherches documentaires et bibliographiques pour les AID de 2 ème année Lausanne les vendredis 11 avril et 9 mai 2003. Comportement standard.

mary
Télécharger la présentation

Trouver au lieu de chercher : on ne trouve pas TOUT sur le WEB mais de TOUT …

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Trouver au lieu de chercher : on ne trouve pas TOUT sur le WEB mais de TOUT … Patrick Gay - GIBIPO & Patrick Johner - CRDP Formation sur les recherches documentaires et bibliographiques pour les AID de 2ème année Lausanne les vendredis 11 avril et 9 mai 2003

  2. Comportement standard 80% des internautes se précipitent sur un moteur de recherche et tapent un ou deux mots-clefs séparés par un espace … Et si nous faisions un petit sondage dans la salle. Qui utilise Google ou Altavista ainsi ? Pas de panique, il existe d ’autres moyens plus performants, nous allons les découvrir. Le premier , éviter les fautes d ’orthographe ! Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  3. Introduction Syntaxe R-doc Outils R-Bib Conclusion page 4 page 13 page 23 page 34 page 67 page 86 Au programme Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  4. Intro - historique • Années 70 : naissance de l ’Internet • Réseau ARPANET • VERONICA (recherches titres, occurrences des termes, répertoires) • WAIS (indexation en texte intégral) • ARCHIE (recherches sur serveurs FTP) • Années 90 : avènement du WEB au CERN • Outils spécialisés comme Mosaïc en 1994 Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  5. Intro - raisons du succès • Protocole TCP/IP • Langage commun à tous les types de machines et de système d’exploitation • Interconnexion des tous les réseaux • Dialogue entre toutes les machines • Administration centrale minimale • Effort coopératif, suffixes de domaine, les adresses des machines (IP), équivalent en clair. • Langage HTML pour les pages WEB Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  6. Intro - services disponibles • Sites WEB • http://wwwedu.ge.ch/dip/biblioweb • Messagerie électronique • patrick.johner@edu.ge.ch • Listes de diffusion & forums de discussion • swiss-lib@lists.switch.ch • Accès à des banques de données • Telnet • Echanges de données • FTP Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  7. Intro - critique de l’information • Hétérogénéité : contenu et le codage • Instabilité • Fragmentation • Renouvellement continuel • Non structuré • Multilinguisme • Publique / privé / commercial Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  8. Intro - les six questions de base • Qui est la source ? • Quels résultats obtenons-nous ? • Comment est présentée l ’information ? • Quand le site a été crée ? • Où sommes-nous ? • Pourquoi diffuse-t-on cette information ? Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  9. Intro - évaluer un site • Fiabilité et qualité de l ’information • Trier l ’information • Evaluer l ’information et la source • Exactitude, exhaustivité • Auditoire • Vraisemblance, impartialité, cohérence • Vérifier l ’information Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  10. Intro - déchiffrer les URL • Http:// protocole • www. Web • Geneve. Nom • Ch Extension • http://www.geneve.ch • URL (Uniform Ressource Locator) Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  11. Quelques chiffres • 82 % des recherches par mots-clefs • 17 % navigation dans rubriques • 300 millions d ’internautes dans le monde • Plus de 10 millions en France • On parle de 500 milliards de pages … • 7,1 millions de sites Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  12. Petite récréation elgooG Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  13. Syntaxe - opérateurs par défaut ? • Tapons par exemple : réchauffement planète • Selon l ’opérateur par défaut nous aurons des documents concernant : • le réchauffement de la planète avec « et » • soit le réchauffement du cassoulet de la veille mais aussi sur la planète Mars avec « ou ». Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  14. Syntaxe - opérateur «  ou » Opérateur qui permet « d ’ouvrir » une recherche, par exemple : bibliothèque ou library chien ou chiens Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  15. Syntaxe - opérateur « sauf » • Cet opérateur permet de supprimer un concept dans une recherche, par exemple cancer sauf horoscope Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  16. Nous pouvons avoir : capi* * taine ca * ne capitaine capitale capital mitaine capitaine cabine capitaine carabine Syntaxe - troncature Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  17. Syntaxe - majuscules, minuscules Sur Altavista nous pouvons tester : • ibm ou IBM • on aura alors ibm ou IBM • Ibm • on aura alors pas ibm ou IBM on peut aussi tester avec Peugeot Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  18. Nous avons : Google.com Google .fr Google.ch Mais certains outils ne donnent pas les mêmes résultats avec : library ou bibliothèque Nous avons aussi le filtre linguistique. 55 % en anglais 7 % en russe 6% en allemand 5% en chinois 5 % en japonais 3 % en français 3% en espagnol Syntaxe - gestion des langues Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  19. Pour certains outils de recherche sur le WEB les accents ont une importance. Jérome Jerome Idem pour l ’ordre des termes, on a pas toujours le même résultat. +Paris + Dakar +Dakar +Paris Syntaxe - accents et ordre Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  20. Syntaxe - expressions Nous pouvons formuler de trois façons: • New York • nous aurons soit New Age • soit la ville d ’York • +New +York • nous aurons le New Age dans la ville d ’York • « New York » • nous aurons enfin New York Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  21. Météo Sexe ANPE Google Yahoo Lycos Caramail Tennis SNCF Annuaire Pages jaunes Recherche MP3 Harry Potter FNAC Voilà Immobilier Musique Emploi Star academy Looksmart 2002 Vingt mots-clefs les plus utilisés Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  22. Petite récréation http://betes.free.fr/ Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  23. R-DOC - autres zones • Recherches possibles sur l ’URL • Recherches sur les titres des pages • Recherches dans les zones invisibles • balise Meta « Keywords » ou « Description » • Recherches dans les pages archivées Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  24. R-DOC - trouver les mots-clefs Rien de tel que de prendre une feuille et un crayon pour commencer une recherche. Nous avons : • mots-clefs primaires • finance, commerce, tourisme, loisirs, voyage • mots-clefs secondaires • jus d ’orange, bourse, Chicago • mots-clefs interdits • avec fruits, apple éviter computer Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  25. R-DOC - résultats Sur un annuaire vous avez les catégories, puis le résultat avec une notice. Sur un moteur vous avez directement des résultats classés selon la pertinence. Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  26. R-DOC - indice de popularité • Historiquement les résultats sont présentés selon : • l ’occurrence du mot-clef • sa place dans le document, début, fin • la taille de celui-ci dans le texte • Indice de popularité (IPP) • liens qui pointent sur un site • double niveau pour éviter la triche Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  27. Déclaration volontaire du site par son Webmaster, il est aussi possible d ’influencer les robots en mettant certaines indications dans le titre des pages, en choisissant la place des termes, en utilisant en HTML les zones meta- données (Head) ou se trouvent les mots-clés, titres. A travers un robot (spider ou crawler) qui explore de manière automatique la toile, il se faufile par les liens, seules les pages HTML sont prises en compte, il reste une importante partie non indexées somme les bases de données, les documents PDF (sauf Google) … passage tous les 2-3 mois vu la taille du WEB. R-DOC - indexation des sites Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  28. R-DOC - page en HTML Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  29. Mots vides Indexation au mot Indexation en texte intégral Index monochamp Index multichamps Recherche en langage naturel Indexation automatique Analyse sémantique Analyse phonétique R-DOC - indexation Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  30. R-DOC - méthodologie • Quel est le sujet précis ? • Je recherche de l ’information sur la maladie de la vache folle • Quelle limite géographique, linguistique, temporelle ? • Documents en français de moins de trois ans • Quels mot clés conviendrait ? • Maladie de la vache folle • Moteur de recherche à utiliser ? • Http://metacrawler.com/index.html • Formulation précise de la recherche ? • Maladie de la vache folle • Les réponses sous quelle forme ? • Une adresse de site intéressant • Validité de l ’information ou évaluation du site ? Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  31. R-DOC - Service de référence En bibliothèque nous devons aussi penser à : • Qui demande l ’information ? • Quel est son niveau de connaissance ? • Pourquoi a-t-il-elle besoin de ces informations ? Dans la mesure du possible nous ferons avec notre lecteur la recherche et instaurerons à mesure un dialogue . Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  32. R-DOC - pages de résultats • Présentation par ordre de pertinence selon règles et hiérarchies pré-établies • emplacement du terme recherché, dans le titre, les mots-clé, texte ... • fréquence d’apparition du terme dans le document • par popularité (nombre de liens qui pointent sur le site) • Mais doublons souvent présents Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  33. 51 % 47 % 20 % 16 % 6 % 2 % 2 % Bannières publicitaires Moteur de recherche Catalogue en ligne Compte bancaire Comparaison de prix Achat en ligne Petites annonces Source BVA Internautes ont consulté au moins une fois en janvier 2002 les sites suivants Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  34. Un annuaire représente dans une hiérarchie de domaines et de sous-domaines un certain nombre de sites décrits par quelques informations précises. Yahoo 2 millions de sites Yahoo France 140 ’000 sites Nomade 140 ’000 sites Outils - annuaires Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  35. Outils - Yahoo • Créé en 1994 par deux étudiants de Stanford • D ’abord recenser leurs propres sites, avant de devenir une activité commerciale, Google prend la relève en cas ne non réponse. • 55 millions de requêtes de page par jour, • 2 millions de sites recensés, • 14% du trafic généré • En France en mai 2001 yahoo.fr • 3,2 millions de visiteurs, • 500 millions de pages vues. Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  36. Outils - essayer • J ’aimerais de la documentation sur les bibliothèques virtuelles • Essayez virtual libraries • Comparez le nombre de réponses Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  37. Outils - Yahoo 1 http://fr.yahoo.com/ Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  38. Outils - Yahoo 2 http://fr.yahoo.com/ Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  39. Outils - répertoires thématiques • Valeur ajoutée • Limitation du bruit • Donne adresses des sites • Biais par couverture régionale • Accès direct limité • Mises à jour aléatoires Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  40. INTERNET Interconnexion mondiales d ’ordinateurs, soit des utilisateurs avec leurs ordinateurs soit des serveurs. L ’Internet représente l ’aspect lié à l ’infrastructure, la « tuyauterie » du réseau mondial. WEB Ce n ’est qu ’une partie de l ’Internet qui permet de consulter des documents multimédias. Le WEB invisible c’est : Les archives de presse Les pages WEB crées avec des outils dynamiques Les banques de données gratuites ou payantes Vocabulaire Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  41. Le moteur de recherche recensent des pages WEB dans un index, puis il classe les résultats selon un algorithme. Voilà 30 millions pages Altavista 13 millions en français 550 millions Lycos 11 millions Google 620 millions Outils - moteurs de recherche Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  42. Outils - Google • Dérivé de Gogol, 10 à la puissance 100 • Créé en 1998 par des étudiants de Stanford • Devient en 1999 une société commerciale • En juin 2001, 620 millions de pages en totalité sur leurs disques • Classement par indice de popularité • En France Google.fr • Peu de publicité et beaucoup de nouveautés • 56% du trafic généré dans le monde • Dont 40% pour Google France Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  43. Outils - essayer l ’outil • Nous cherchons de l ’information sur la musique baroque • Nous cherchons des informations sur le climat au Sénégal • Recherchez : french military victories, le résultat est éloquent Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  44. Outils - Google 1 http://www.google.com/ Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  45. Outils - Google 2 http://www.google.com/ Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  46. Outils - Google mode d ’emploi • Minuscules/majusculesIdem • Ordre des motsImportant • OUOR • ETOpérateur par défaut • SAUF- • TroncatureNon • Recherche linguistique • Recherche sur le nom du sitesite • etc ... Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  47. Outils - Google les secrets • Google tronque • Pages cachées ou archives • Documents cachés (Pdf, Doc …) • Google nationaux • Fêtes Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  48. Outils - robots généralistes • Simplicité d’utilisation • Couverture la plus complète • Mise à jour automatique et rapide • Amélioration constante • Bruit • Doublons non détectés • Hétérogénéité des réponses Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  49. Recherche d ’une source d ’information globale, un site sur mon sujet m ’intéresse. ANNUAIRE On recherche par exemple le site de Renault Recherche d ’une donnée précise ou pointue, elle sera mentionnée sur une page. MOTEUR Je recherche des information sur la Renault Clio Outils - lequel choisir ? Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

  50. Outils - maîtriser l ’outil • Nous cherchons des informations sur la construction du Pont Butin à Genève Faire une recherche sur Yahoo et sur Google • Regardez les résultats et vous aurez une étendue des interprétations • Comparez les trois premiers résultats de chaque recherche Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003

More Related