Bienvenue

Bienvenue

UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU DEPARTEMENT D’INFORMATIQUE En vue d’obtention du diplôme d’ingénieur d’état en informatique Option Systèmes d’information avancés Travail Réalisé par: Dirigé par: • MR GUENDOUL Samir • Mr HAMMACHE Arezki PROMOTION 2009_2010

Thème : Réalisation d’un crawler web paramétrable.

Plan : • Introduction. • Recherche d’information sur le web. • Moteurs de recherche. • Crawler. • Solution réalisée. • Conclusion.

Introduction: Recherche d’information: • La recherche d'information est un domaine historiquement lié aux sciences de l'information et à la bibliothéconomie. • La recherche informatique a permis le développement d’outils pour traiter l’information et établir la représentation des documents à l’instant de leur indexation. Au sens large, la recherche d'information inclut deux aspects : • l'indexation des corpus ; • l'interrogation du fonds documentaire ainsi constitué.

Le Web: (www) • Créé par Tim Berners-Lee dans les année 90. • Représente la couche logique du réseau Internet. • Créé pour échanger et consulter l’information. • Question : • Comment accéder aux informations nous intéressant ? • Parcourir tous les composants reliés au Web. (tâche ardue et lente). Comment faire ?

Les outils de recherche sur le Web • Les moteurs de recherche : • l’un des composants qui ont révolutionné le web. • Créé par Matthew Gray En 1993. • Son travail consiste à : • Chercher les informations pertinentes. • Les restituer à l’utilisateur.

Les outils de recherche sur le Web • Les annuaires: • Yahoo est le premier à faire son entrée en 1994. • Ils sont constitués par des catalogues organisés en grandes rubriques. • Les résultats sont pertinents mais beaucoup plus restreints. • Les méta-moteurs: • Un méta-moteur est un moteur de recherche, combinant la recherche d’information sur plusieurs moteurs de recherche différents. • web Crawlde, métaCrawler, …etc.

Web Les moteurs de recherches: Base de stockage Crawler Besoind’informations Formulation Indexeur Représentation de question Anti-dictionnaire Classement Listerangée présentation Retourne le résultat à l’utilisateur

Module de recherche Processus de moteur de recherche: www Besoind’informations requête Crawler indexeur Base de stockage Listerangée Anti-dictionnaire

Le Crawler: • Définition: • Programme intelligent qui s’exécute automatiquement. • Parcoure et explore le Web en suivant les line hypertextes. • Alimente la base de donné des moteurs de recherche. • Archie: • Le premier robot apparu dans le web. • Créé par Alan Emtage en 1990. • Télécharger le listings d’annuaire.

Les types des Crawlers: • Crawler Web : • il explore tous le Web et aspire les informations correspondantes à chaque URL. • Crawler indexeur : • parcoure, aspirant et index chaque page trouver dans le Web. • Crawler chercheur: • Rechercher des informations spécifique à un domaine précis par une requête. • Cherche sur le web en temps réel. Remarque : Le type de Crawler qu’est étudié est le Crawler Web.

Architecture Générale des Crawlers: URLs de départ Entrée Ajout d’URL Scanneur Frontière Choisir URL Traiter Client HTTP Parseur www Fouiller Chercher Sauvegarde B.D.D

Stratégies de parcours: • Le web est un graphe dont les nœuds sont des pages et les arcs sont des liens. • Le crawler commence par quelque nœuds est suit les arcs. • Dévers Stratégies existe : • Le parcours en largeur (FIFO). • Le parcours en profondeur (LIFO). • Le parcours suivant le degré entrant maximum (DEM). • Le parcours aléatoire (RANDOM).

Le parcours en Largeur 1 2 3 4 5 6 7 8 9 10 Queue Tête

Le parcours en profondeur 1 2 3 4 5 6 7 8 9 10 Queue Tête

Client HTTP Le processus de Crawler: URLs de départ URL URL URL Entrée URL La frontière URL www URL URL URL URL chercher URL URL URL URL URL URL URL parser scanner URL URL Choisir URL URL Parseur URLs trouvées sauvegarder URL URL URL URL URL BDD

Critères du Crawler: • Les critères à suivre : • Eviter de parcourir une même page; • Choisir les documents a téléchargés; • Ne pas récolter des fichiers qui peuvent causer des dommages; • Eviter de suive un parcours sans fin; • Respecter les instructions d’exclusion (robot.txt); • Ne pas saturer les serveurs.

Les Crawlers distribués: • Problème : • Immensité de Web. • Limite des Crawlers mon-poste. • Solution: • Nécessité d’une nouvelle technologie; • Naissance des Crawlers Distribués.

Architecture des Crawlers Distribués: Frontièr BDD URL Clients URL Serveur URL URL URL URL URL URL URL URL URL URL URL URL URL URL URL URL URL URL Crawler URL URL URL Crawler www URL URL URL Crawler URL URL URL Crawler . . .

Solution réaliser: Un Crawler Paramétrable

Environnement de développement : • La réalisation d’un logiciel fiable et performant est capitale. • Les outils de développement: • Système d’exploitation : Windows Vista. • Environnement : Eclipse IDE version 3.4.1. • Langage de programmation : JAVA.

Architecture du Système: Crawler URL document URL document URL document URL document URL document

Architecture du Système: Noyau Sauvegarder les données Initialiser et démarrer le Crawler Interface Utilisateur Stockage d’informations Consulter les données

Le Noyau: Noyau Client HTTP Parseur Scanneur Exploreur

Le Client HTTP : URL Interroger le serveur www Fin Non Existe? Oui Télécharger le document Sauvegarder Base De Données

Le parseur: page Analyser Fin Non Contient des liens? Oui Extraire les liens ajouter Fille temporaire

Le Scanneur: URLs Vérifier le Protocole Non Fin HTTP? Oui Vérifier le lien Oui interne? Non Vérifier le type Non existe? Oui Vérifier la longueur et la profondeur Oui dépasser? Non Ajouter à une fille temporaire

L’exploreur: Début Frontière Fin Oui vide? Non Choisir URL Télécharger Client HTTP recommencer Analyser Parseur vérifier Scanneur ajouter Ajouter les URLs à la frontière

Stratégies de parcours: • La frontière détermine quelle stratégie adopter . • Nous avons développés quatre stratégies : • Parcours en Largeur : utilise une fille FIFO. • Parcours en Profondeur : utilise une fille LIFO. • Parcours aléatoire : programmée avec la fonction Random(). • Parcours Delay : utilise une fille FIFO, temps de connexion limité. • Pour programmer ces fille d’attentes, nous avons utilisés la classe ArrayList.

Interface graphique principale:

Ajouter un Crawler:

Panneau gestion Crawler: Propriétés du Crawler Etat de parcours Arrêter Démarrer URLséxplorées Pages téléchargées Pause Continuer

Consulter les URLs Explorées: Consulter les pages téléchargées:

Fin de Crawler

Test • Nous avons initialisé le Crawler comme suit: • Stratégie : Fifo ; • Nombre Urls : illimité ; • Nombre Répertoire : illimité ; • Longueur Url : illimité ; • Type Url : html, php, asp, pdf, doc, txt, ptt ; • Url de depart : http://www.ummto.dz/ • Après onze heur de parcours:

Test

Conclusion • Nous avons présenté une étude détaillé sur les Crawler et la solution réalisée. • Nous avons conquis de nouvelles information sur la RI, et acquis une base solide sur le développement et la programmation de logiciel. • En guise de perspective nous proposons, d’élaborer une architecture distribuée pour le Crawler réaliser.

Merci pour votre attention Questions..?

Bienvenue

Bienvenue

Presentation Transcript

Bienvenue

BIENVENUE

Bienvenue !

Bienvenue !

Bienvenue

Bienvenue !

Bienvenue

Bienvenue

Bienvenue…

BIENVENUE

Bienvenue !

Bienvenue

Bienvenue!

Bienvenue

Bienvenue

Bienvenue

BIENVENUE

Bienvenue !

Bienvenue!

Bienvenue!

Bienvenue

Bienvenue!