310 likes | 496 Vues
Recherche Information Web. Recherche sur Internet. Plusieurs centaines d’outils de recherche sur des informations ciblées à partir de questions Recherche par Sujet (annuaire) Hiérarchies (Yahoo) WAIS, Sélection de sources Indexation plein texte
E N D
Recherche sur Internet • Plusieurs centaines d’outils de recherche sur des informations ciblées à partir de questions • Recherche par Sujet (annuaire) • Hiérarchies (Yahoo) • WAIS, Sélection de sources • Indexation plein texte • Altavista, WebCrawler, Virtual Library, Excite,Voilà … • Google
Recherche sur Internet • Recherche par mots clés ou thésaurus • Recherche sur tous les mots > 2 caractères • Serveurs indexeurs • Indexation automatique du document • Soit sur demande • Altavista, Webcrawler, Infoseek, Lycos, Ecila, Lokace, yahoo,voila... • Interrogation par Opérateurs logique (et, ou, sauf) • Problèmes • du bruit/silence • les mêmes serveurs apparaissent plusieurs fois
Interrogation Base Documentaire Documents pertinents Documents extraits requêtes Base Documents Systèmes Information Documentaire
Recherche d’Information • Précision : P = Nombre de documents pertinents extraits Nombre de documents extraits • Bruit : B = Nombre de documents non pertinents extraits Nombre de documents extraits B = 1 - P
Recherche d’Information • Rappel : R = Nombre de documents pertinents extraits Nombre de documents pertinents • Silence : S = Nombre de documents pertinents non extraits Nombre de documents pertinents S = 1 - R
Recherche d’Information • Annuaire : • Construit manuellement • Listes de sites sous ensemble correspondant a des rubriques Rubriques : • Actualités • Enseignement .. • Informatique et internet • Science et technologie • Sciences humaines • Santé • Sport
Recherche d’Information • Annuaire : • Yahoo.com ou fr • Deux modes d utilisation • Hiérarchique : Rubrique , sous rubrique • Listes de sites centrés sur thème recherché • Recherche arborescente puis séquentielle Recherche par mot clé : • On obtient Rubriques • Sites avec bref descriptif
Recherche d’Information • Avantages : • Navigation guidée efficace • Sites sélectionnés centrés sur thème recherché • Recherche arborescente puis séquentielle Inconvénients : • Taille annuaire réduite (fonction du temps humain) • On ne trouve que ce qui a été classé par gestionnaire annuaire • Mise a jour limitée
Les Moteurs de Recherche • Développés pour rechercher dans les serveurs Web • Principe similaire à ceux de Wais : • - Recherche des documents sur tous les mots (>2 caractères) • - Indexation des documents contenant des mots (anglais le plus souvent) • - Listes des documents avec URL • - Requêtes plus sophistiquées (et, ou,non) • - Rapatriement des documents eux-mêmes
Moteur Recherche d’Information • Méthodes • Indexation par moteur qui passe sur toutes les pages web des sites • Indexe sur tous les mots > 2 caractères • Indexe nouvelles pages et contenus de maniere continue • Pondère les documents recherchés • Recherche: • Mot ou groupe de mots • Opérations Logiques (ET OU SAUF) • Classement des résultats : par fréquence (apparition des mots , visites du site …)
Opérateurs Logiques • Opérateurs Logiques (Booléens) • a ET b a b a ET b • V V V • V F F • F V F • F F F • a OU b a b a OU b • V V V • V F V • F V V • F F F • NON a a NON a • V F • F V
Moteur Recherche d’Information • Google • Indexation par moteur qui passe sur toutes les pages web des sites • Ignore les articles, adverbes …. • Ignore Majuscules Minuscules • Par defaut ignore les accents … • Recherche: • ET logique si plusieurs mots • Exclusion de mots : SAUF (-) • Ou (OR) • Expression entre « » • Forcer à chercher un mot +
Moteur Recherche d’Information • Google • Plus de 10 milliards de page en toutes les langues • Temps de réponse tres rapide (<0.5S) • Sélection des pages en fonction d une requete • Classement avec algoritme declassement en fonction fréquence et de la popularité d une page • Ignore Majuscules Minuscules • Par defaut ignore les accents … • Recherche: • ET logique si plusieurs mots • Exclusion de mots : SAUF (-) • Ou (OR) • Expression entre « » • Forcer à chercher un mot +
Moteur Recherche d’Information • Choix mot clés Choisir des noms Mots les plus probables dans pages recherchées Précis et bref Mots concrets Mots importants en Tête Rechercher Phrases si possible Ex: (sanglots longs des violons ) Limites : • Pas de mots dérivés (canal mais pas canaux) • Limite a 32 mots • Ignore la ponctuation et signes spéciaux • Favorise pâges avec mots dans le même ordre • Etendre recherche fichier texte (.doc .pdf ..)
Moteur Recherche d’Information • Google Moteur le plus utilisé Variante géographique (google earth) Variante Scientifique (scholar) • Recherche Avancée: • Limiter recherche a un site donné • Langue donnée • Dans toute la page, le titre ,adresses • Période donnée • Selon le type de format de fichier • Etendre recherche fichier texte (.doc .pdf ..)
Moteur Recherche d’Information • Avantages : • Requetes simples ou complexes • Index augmentent avec web • Mise a jour continue et rapide • Peu de silence Inconvénients : • Difficulté Choix des mot clés • On ne trouve que ce qui a été classé par gestionnaire annuaire • Mise a jour limitée • Bruit important
Recherche d’Information documentaire • Bases de données Documentaire: • NLM (MEDLINE) • Pubmed liens avec Plein texte • Editeurs • Elsvcier, Springer , Lipincott, Blackwell • Voir ENT Bases Bibliographiques En France : • Pascal (CNRS)Thèses+ Articles • BDSP (ENSP) Santé Publique…
Recherche d’Information documentaire • Catalogue Bibliothèque: • Listes de documents organisés • Thématique • Auteurs • ISBN (International standard Book Number) Livre • ISSN (International standard Serial Number): pour revue Sudoc (Systeme Universitaire de documentation) : • 5 millions de références des universités française Mise a jour limitée • Thèses de Sciences Médecine Pharmacie Dentaires … • Décrit par des notices: auteur ,titre editeur, année … • On peut savoir ou trouver le document dans BU Francaises
Recherche ECN Complétionautomatique