1 / 62

Motori di Ricerca

Motori di Ricerca. Se non sai, sappi dove (e come) cercare!. Motori ! V1.1 05/2003. Il web oggi dimensioni, lingue etc. Glossario di ricerca Motori, metamotori, integratori Come funzionano, Come si utilizzano Directory Newsgroups. 2004: 100 miliardi di pagine. cip: Enorme!.

cady
Télécharger la présentation

Motori di Ricerca

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Motori di Ricerca Se non sai, sappi dove (e come) cercare!

  2. Motori ! V1.1 05/2003 • Il web oggi dimensioni, lingue etc. • Glossario di ricerca • Motori, metamotori, integratori • Come funzionano, • Come si utilizzano • Directory • Newsgroups

  3. 2004: 100 miliardi di pagine cip: Enorme! Dimensioni del Web 2002: 6 miliardi di pagine presenti • Oltre 8 milioni di siti (ott. 2001) , 73% in inglese, 7% in tedesco …

  4. cip: Web: in Italiano “ragnatel” IL WEB!

  5. Il Web oggi (2002): alcune informazioni • Degli 8.4 milioni di siti, 3.1 milioni sono classificati come siti pubblici (i.e. siti il cui contenuto è liberamente accessibile al pubblico), 2.1 come privati (accesso ristretto) e 3.2 provvisori o in uno stato transitorio (non terminati) • 10% di link “morti” (dead links)

  6. Web: Info • Lingue: Inglese 73%, tedesco 7%, giapponese 5%, francese e spagnolo 3% (e l’Italiano?) • Il 47% dei siti pubblici sono negli USA

  7. cip: dati 2001 Quanto è grande Internet? • “Surface” web (SW, circa 2,5Miliardi di documenti) • “Deep” web (DW) circa 500 volte più grande • SW cresce di circa 7 milioni di pagine al giorno • Media di 20KB per pagina

  8. Quanto è grande Internet? • DW= SW più DB (Data Bases), pagine dinamiche, Intranets … • I due DB più grossi accessibili sono il “National climatic data center” www.ncdc.nooa.com e la NASA (circa 585 Terabytes di Informazione

  9. Tipi di documenti nel web • Pagine Html • PDF (adobe Acrobat) • DOC (Microsoft Word) • PS (Adobe Postscript) • PPT (Microsoft Powerpoint) • XLS (Microsoft Excel) • RTF (Rich Text Format)

  10. cip: e il “cinese”? Utenti e lingue Internet • Solo circa il 50% degli utenti Internet è di madrelingua Inglese • Il 78% dei siti e il 96% dei siti di e-commerce è in Inglese • Traduttori…. • E-mail: circa 2000 miliardi di messaggi all’anno (spam)

  11. Glossario (1) • Ricerca Booleana Una ricerca che permette la inclusione o la esclusione di documenti che contengono certe parole tranite l’uso di operatori come AND, NOT e OR. • Ricerca Concettuale La ricerca di documenti che sono in relazione con una parola, piuttosto che di quelli che la contengono specificamente. • Indice “Full-text”: un indice che contiene ogni parola di ogni documento, incluse le “stop words” • Fuzzy search: Una ricerca che trova risultati anche quando le parole sono scritte parzialmente o male.

  12. Glossario (2) • Indice: Il catalogo dei documenti creato dal motore di ricerca (chiamato anche catalogo) • Ricerca per parole chiave (Keyword search): una ricerca di documenti che contengono una o più parole specificate dall’utente. • Ricerca di una Frase: Ricerca di documenti che contengono una frase (sentence) esatta. • Precisione: Quanti dei documenti segnalati effettivamente rispondono alla richiesta fatta. Per esempio, se un motore lista 80 documenti ma solo 20 di essi contengono le parole cercate, la sua precisione è del 25%

  13. Glossario (3) • Ricerca di Prossimità: Una ricerca in cui le parole cercate devono essere vicine fra di loro. • Query-By-Example: Ricercain cui si richiedono ulteriori documenti simili ad un particolare documento "find similar." • Rilevanza: Quanto un documento fornisce l’informazione cercata.

  14. Glossario (4) • Motore di ricerca: Il software che cerca in un indice e fornisce i risultati.Spesso viene usato come sinonimo di Spider e Crawler anche se si tratta di componenti separati. • Spider: Il software che esplora pagine web e le aggiunge ad un indice seguendo i collegamenti (Iperlink). Anche “Crawler” • Stemming: La capacità in una ricerca di includere la radice delle parole ad es nuotatore… nuoto

  15. Glossario: (5) • Stop words: congiunzioni, preposizioni articoli e altre parole come “e, a, un, il” che appaiono frequentemente nei documenti ma significano poco. • Thesaurus: Una lista di sinonimi che un motore può utilizzare quando cerca particolari parole anche se i termini cercati non appaiono nei documenti.

  16. Motori di ricerca: come operano • Programmi robot (crawler, Spider o indicizzatori) che aggiornano automaticamente gli indici del motore di ricerca • Le informazioni non vengono “filtrate” • Aggiornamenti costanti e precisi • Raccolgono le informazioni su tutte le pagine web dei siti e non solo sulla Home Page • Enormi DataBase

  17. Motori di ricerca: categorie • Motori (Altavista, Google, Hotbot, Ask Jeeves, etc etc.) • Metamotori (Metacrawler…) • “Integratori” (Copernic o altri)

  18. Motori, metamotori etc • Funzionano in maniera diversa • Sia come indicizzazione che come utilizzo • Informazioni su... • www.Searchenginewatch.com • www.motoridiricerca.it • Motori che usano linguaggio naturale (ask jeeves) www.ask.com

  19. Differenti caratteristiche dei motori • Da http://www.searchenginewatch.com/facts/ataglance.html • Caratteristiche comuni (esempi) • Includi “+” Escludi “-” Frase “xxxx” • Caratteristiche Non comuni • Nesting: pizza AND (pomodoro OR acciughe) • Minuscole maiuscole • “near” pizza near pomodoro • *paolo --->(pierpaolo gianpaolo etc.)

  20. cip: ? Motori: alcune specificità • Esempi: • Il qualificatore “Near” è gestito da Altavista (10 parole), Lycos (25 parole) e basta… • Paol* non gestito da Google • http://www.motoridiricerca.it/tabella.htm

  21. Rilevanza: Come viene dato peso alle pagine web • Come fanno i motori a stabilire la rilevanza dei risultati? • Usano algoritmi proprietari (e segreti) con le seguenti regole generali • Posizione delle parole e Frequenza • Esempio del bibliotecario e “viaggi”, prima i libri con la parola viaggi(o) nel titolo. (tag <title>) • Si cerca anche che la parola appaia nelle prime righe della pagina.

  22. Frequenza • La Frequenza è il secondo criterio per determinare la rilevanza. • Motori diversi, diverso numero di pagine indicizzate, diversa frequenza di visita, diverso tempismo, dunque risultati diversi. • I Meta tags, non sono letti da tutti i motori e sono comunque trattati in modo differente • Penalizzazione dello spamming, lotta continua con i webmasters, incluse le lamentele degli utenti.

  23. Come funziona, il peso dato alle pagine • Fattori “fuori pagina” (Off The Page) • Analisi dei link può determinare l’argomento e l’importanza (punteggio) • Quante volte viene cliccato un certo risultato? Il Punteggio cambia (+ o -) • Vedere il Search Engine Features Chart e il Search Engine Design Tips su www.searchenginewatch.com. • http://www.searchenginesinfo.com/

  24. I motori “di moda” • Google • Altavista • Motori italiani • (Yahoo, america online ed altri usano google)

  25. Usenet newsgroups • Oltre 35000 (100.000?) gruppi di discussione • Testo, no multimedia (*) Protocollo NNTP • Esistono da molti anni prima del “Web” e del browser • Utilissimi • Soprattutto le “Faq” (frequently asked questions) • Storia dall’81 su Google

  26. Usenet Newsgroups • Accessibili tramite un Newsreader ( in netscape, Outlook o altro) si specifica un newsserver (p. es. “News.tin.it”) e ci si “abbona” ai newsgroups a scelta. • Contengono discussioni su temi disparati. • Usa il protocollo NNTP • Accesso tramite web browser su google o altavista • www.faq.org • http://www.google.it/grphp?hl=it

  27. Newsgroups importanti • News.answers • Comp.answers

  28. Er meio! furbo e potente • Tre miliardi di documenti indicizzati • Due miliardi di pagine web, • 300 milioni di immagini • 700 milioni di usenet posts Dati 2002

  29. Google • Copia cache • Ricerca nei risultati • Traduzione (Beta test) • Maiuscole minuscole • “And” automatico • “Mi sento fortunato” • Newsgroups

  30. Google traduzioni !!!!!

  31. Google immagini!

  32. Altri servizi Google • Froogle • Catalogs! • News • etc.

  33. Cercando sul web • Portale: sito di accesso alla rete, con directory, news, servizi, giochi, chat, etc. • Directory: comprendono collezioni di siti organizzati per categorie omogenee • Motore di ricerca: mettono a disposizione un archivio di pagine web

  34. Portale

  35. Directory • Fornisce liste di siti suddivisi in categorie correlate da una breve descrizione • Categorie e descrizioni sono raccolte da persone specializzate (web surfers) secondo il proprio giudizio • Gli aggiornamenti dipendono dai tempi “umani”

  36. Quale strumento usare?

  37. Le directories di AltaVista

  38. Le directories di Google

  39. Metamotori: • Fanno lavorare gli altri • Utili per uscire dal tran tran • Per trovare più informazioni • Ultima spiaggia?

  40. Metacrawler

  41. Integratori come Copernic • Molto utile • www.copernic.com • Sottomette le richieste a vari motori, aggiungendo del suo.. • Ricerca per categorie • Opera in locale sul tuo PC. • Versione base gratuita

  42. Copernic (“Integratore”)

  43. Copernic, un gioiello! • Copernic usa siti specifici, ritiene che ci siano info più pertinenti/più aggiornate • Info che i normali motori non trovano! • Categorie: MP3s, notizie locali, enciclopedie, giochi, downloads, viaggi etc.

  44. Copernic • La versione base opera una metaricerca che prende i risultati da molti altri motori AltaVista, Excite, Fast Search, Lycos, WebCrawler, MSN Web Search, Yahoo!, Hotbot, GoTo, FindWhat e l’ Open Directory Project. (….) • Validazione “dead links”, ricerche su categorie (enciclopedie, immagini, mp3, indirizzi di posta…)

More Related