1 / 16

Motoare de cautare

Motoare de cautare. Masterand : Valerian Stanciu IISC Profesor : Stefan Stancescu. 1. I ntroducere 2. Motoare de cautare 3. Web Crawling 4 . Indexare Web 5 . Interogari de cautare Web 6. Concluzii. CUPRINS. Software proiectat pentru cautare de informatii pe WWW

carina
Télécharger la présentation

Motoare de cautare

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Motoare de cautare Masterand: Valerian Stanciu IISC Profesor: Stefan Stancescu

  2. 1. Introducere 2. Motoare de cautare 3. Web Crawling 4. Indexare Web 5. Interogari de cautare Web 6. Concluzii CUPRINS

  3. Software proiectatpentrucautare de informatiipe WWW • Pagini web, imagini, etc • Initial cautau in site-uri FTP (fisiere share-uite) • Faciliteazaaccesulsicautare ape Internet • Archie: primul motor de cautare (Alan Emtage, 1990) • Operatoribooleeni: OR, AND, NOT 1. Introducere

  4. 2. Motoare de cautare

  5. Proces front-end: se introduccuvintelecheie, se parseazacerereaintr-o forma inteleasa de motorul de cautare, se cautaprinfisiereleindexate, se returneazarezultate, conform rankingului • Proces back-end: un spider realizeaza crawling, suntparsatepaginilesistocate sub forma de indecsi Arhitecturaunui motor de cautare

  6. Stocheazainformatiidespremultepagini Web, regasite in codul HTML • Efectivitate: calitatearezultatelor • Eficienta: timp de raspunssicantitatearezultatelor • Crawling, indexare, cautare Functionareamotoarelor de cautare

  7. Un crawler (spider) cautapaginile • Continutulpaginiloresteparsat (titlurilepaginilor, continut, heading-uri, URL-uri, meta-tag-uri) • Indexulajuta la gasirearapida a informatiilor • Noiprocese de crawling se fac periodic sau in timp real Functionareamotoarelor de cautare

  8. 3. Crawling

  9. Dificultati in construireaunui crawler cu adevarateficient: design, I/O, robustete, flexibilitate • Detaliileacestorasuntpastrate secrete • Se cautacuvintele din paginasiloculunde au fostgasite • Puncte de plecare: serverefoartepopulare Crawling

  10. Politica de selectie: care pagini • Politica de revizitare: cat de des • Politica de “politete”: pentru a evitasuprasolicitarepaginilorprincautarea URL-urilor • Politica de paralelizare: coordonarea crawler-elordistribuite • 2005: 40-70% din Web era indexat Crawling

  11. Parcurgere in latime (Breadth-first search): • Suntparcurseintainodurile de la nivelulcurent • Prinvizitareaunui link, se obtineacces la veciniiacestuia • Nu diferentiaza in functie de subiectsaucalitate • MetodaPageRank • Inventata de Larry Page • Oferaponderi link-urilordintr-un set (WWW) pentru a masuraimportantarelativa • PageRank-uluneipagini Web: probabilitatea ca printr-un click random in WWW sa se accesezeaceapagina Crawling

  12. Colectarea, parsareasistocareadatelor • Majoritateamotoarelor de cautare: indexare in intregime a textuluidocumentelor • Indexare: documente text, audio, video, grafice, etc • Metasearch engine: cauta in maimultemotoare; nu stocheazaindecsilocali • Indexare reduce foartemulttimpul de cautare 4. Indexare

  13. Poatedeterminadoardaca un cuvant se aflaintr-o pagina web, nu oferaranking documentelorgasite • Indexulinversat: matricebidimensionala sparse (imprastiata) • O forma de hash table Indexareinversata

  14. Este maibinesa se stocheze direct cuvintele din fiecare document • Este o lista de perechidocumente-cuvinte • Acest index se poatetransforma in index inversatpringrupareaperechilordupacuvinte Indexaredirecta

  15. Interogariintroduse de utilizatori in motoare de cautarepentru a regasiinformatiipe WWW • Pot aveaoperatoribooleeni (AND, OR, NOT) • Interogariinformationale: subiectlarg • Interogarinavigationale: o pagina Web anume • Interogaritranzactionale: intentia de a indeplini o actiune • Interogari de conectivitate: referitoare la conectivitateagrafului web indexat 5. Interogari de cautare Web

  16. O mica parte de termenisuntfolositi la majoritateacautarilor • Lungimeamedie a interogarilorcreste • Google ramanelider de piata (82.80% in 2011) • Motoarele de cautareramanprincipala “unealta” de navigarepe Internet • SEO – Search Engine Optimization 6. Concluzii

More Related