210 likes | 551 Vues
Motoare de cautare. Masterand : Valerian Stanciu IISC Profesor : Stefan Stancescu. 1. I ntroducere 2. Motoare de cautare 3. Web Crawling 4 . Indexare Web 5 . Interogari de cautare Web 6. Concluzii. CUPRINS. Software proiectat pentru cautare de informatii pe WWW
E N D
Motoare de cautare Masterand: Valerian Stanciu IISC Profesor: Stefan Stancescu
1. Introducere 2. Motoare de cautare 3. Web Crawling 4. Indexare Web 5. Interogari de cautare Web 6. Concluzii CUPRINS
Software proiectatpentrucautare de informatiipe WWW • Pagini web, imagini, etc • Initial cautau in site-uri FTP (fisiere share-uite) • Faciliteazaaccesulsicautare ape Internet • Archie: primul motor de cautare (Alan Emtage, 1990) • Operatoribooleeni: OR, AND, NOT 1. Introducere
Proces front-end: se introduccuvintelecheie, se parseazacerereaintr-o forma inteleasa de motorul de cautare, se cautaprinfisiereleindexate, se returneazarezultate, conform rankingului • Proces back-end: un spider realizeaza crawling, suntparsatepaginilesistocate sub forma de indecsi Arhitecturaunui motor de cautare
Stocheazainformatiidespremultepagini Web, regasite in codul HTML • Efectivitate: calitatearezultatelor • Eficienta: timp de raspunssicantitatearezultatelor • Crawling, indexare, cautare Functionareamotoarelor de cautare
Un crawler (spider) cautapaginile • Continutulpaginiloresteparsat (titlurilepaginilor, continut, heading-uri, URL-uri, meta-tag-uri) • Indexulajuta la gasirearapida a informatiilor • Noiprocese de crawling se fac periodic sau in timp real Functionareamotoarelor de cautare
Dificultati in construireaunui crawler cu adevarateficient: design, I/O, robustete, flexibilitate • Detaliileacestorasuntpastrate secrete • Se cautacuvintele din paginasiloculunde au fostgasite • Puncte de plecare: serverefoartepopulare Crawling
Politica de selectie: care pagini • Politica de revizitare: cat de des • Politica de “politete”: pentru a evitasuprasolicitarepaginilorprincautarea URL-urilor • Politica de paralelizare: coordonarea crawler-elordistribuite • 2005: 40-70% din Web era indexat Crawling
Parcurgere in latime (Breadth-first search): • Suntparcurseintainodurile de la nivelulcurent • Prinvizitareaunui link, se obtineacces la veciniiacestuia • Nu diferentiaza in functie de subiectsaucalitate • MetodaPageRank • Inventata de Larry Page • Oferaponderi link-urilordintr-un set (WWW) pentru a masuraimportantarelativa • PageRank-uluneipagini Web: probabilitatea ca printr-un click random in WWW sa se accesezeaceapagina Crawling
Colectarea, parsareasistocareadatelor • Majoritateamotoarelor de cautare: indexare in intregime a textuluidocumentelor • Indexare: documente text, audio, video, grafice, etc • Metasearch engine: cauta in maimultemotoare; nu stocheazaindecsilocali • Indexare reduce foartemulttimpul de cautare 4. Indexare
Poatedeterminadoardaca un cuvant se aflaintr-o pagina web, nu oferaranking documentelorgasite • Indexulinversat: matricebidimensionala sparse (imprastiata) • O forma de hash table Indexareinversata
Este maibinesa se stocheze direct cuvintele din fiecare document • Este o lista de perechidocumente-cuvinte • Acest index se poatetransforma in index inversatpringrupareaperechilordupacuvinte Indexaredirecta
Interogariintroduse de utilizatori in motoare de cautarepentru a regasiinformatiipe WWW • Pot aveaoperatoribooleeni (AND, OR, NOT) • Interogariinformationale: subiectlarg • Interogarinavigationale: o pagina Web anume • Interogaritranzactionale: intentia de a indeplini o actiune • Interogari de conectivitate: referitoare la conectivitateagrafului web indexat 5. Interogari de cautare Web
O mica parte de termenisuntfolositi la majoritateacautarilor • Lungimeamedie a interogarilorcreste • Google ramanelider de piata (82.80% in 2011) • Motoarele de cautareramanprincipala “unealta” de navigarepe Internet • SEO – Search Engine Optimization 6. Concluzii