1 / 10

Challenges in Web Search Engines

Challenges in Web Search Engines. Spam Content Quality Quality Evaluation Web Conventions Duplicate Hosts Vaguely-Structured Data. Spam. ”… for 85% of the queries only the first screen is requested.” Stor interesse for sites i at fremtræde på første side (top 10)

lorin
Télécharger la présentation

Challenges in Web Search Engines

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Challenges in Web Search Engines • Spam • Content Quality • Quality Evaluation • Web Conventions • Duplicate Hosts • Vaguely-Structured Data

  2. Spam • ”… for 85% of the queries only the first screen is requested.” • Stor interesse for sites i at fremtræde på første side (top 10) • Medfører at sites forsøger at manipulere deres position (ranking order) i søgeresultatet = Search Engine Spam • 3 metoder: • Text Spam • Link Spam • Cloaking

  3. Text Spam • Modificering af et teksten på et site, så den kommer til at fremtræde som værende mere relevant end den egentlig er • 2 metoder: • Gentag keywords mange gange (f. eks. nederst på siden) • Brug mange (også urelevante) keywords • Skjul keywords, eksempelvis ved at give dem samme farve som baggrundsfarven eller skriv det med en meget lille font-størrelse

  4. Link Spam • Tilføjelse af links, der peger på selvsamme side eller andre sider, der styres/ejes af forfatteren, i forsøg på at manipulere søgemaskinerne. • 2 metoder: • Link farm: Tilføj en masse links i bunden af siden • Doorway pages: Sider der udelukkende består af links.

  5. Cloaking • Det af brugere får præsenteret et andet indhold end en web crawler. • Egentlig ment som en hjælp til søgemaskinerne, da de får en text-only version af indholdet = nemmere for søgemaskinen at gennemskue.

  6. Content Quality • Hvor Spam er et bevidst forsøg på at misinformere, drejer Content Quality sig om en ubevidst måde at misinformere på. • Mange sider indeholder oplysninger der er forkerte og modsigende. • Mangler en metode til at bedømme korrektheden af indhold. • En mulig metode: Kig på anchor text.

  7. Quality Evaluation • Hvordan vurderes kvaliteten af de forskellige ”ranking algorithms”? • Den optimale metode: Få direkte feedback fra brugerne om de synes resultatet var tilfredsstillende og om de fandt det de ville. • Det gider brugeren ikke. I stedet henter man information om hvilke links brugeren trykkede på (click-through) og hvor lang tid de spenderede på siden. • Dette giver ingen information om brugeren fandt det han ville.

  8. Web Conventions • Ved udvikling af websites er der nogle ”conventions” som det forventes at forfatteren følger. For at forbedre søgeresultater, går søgemaskiner som regel ud fra disse conventions bliver fulgt. • Der nævnes 3 konventioner: • Anchor Text: Det formodes, at brugeren skriver en beskrivende tekst til et link. • Hyperlink: Det formodes, at når forfatteren inkluderer et link, er det fordi det er relevant i forhold til emner siden omhandler. • META: Det formodes, at forfatteren skriver et kort resumé af siden i et META-tag.

  9. Duplicate Hosts • Den samme information ligger ofte flere steder. Søgemaskinerne vil gerne undgå at indeksere de samme sider flere gange, da det tager lang tid og ikke giver ny information. • Duplicate host detection: Det at flere DNS-entries kan pege på den samme IP (server) eller pege på en anden IP (server), der har det samme indhold. • Mange sider baserer sig på dynamisk indhold. Det er derfor svært at ”se” om to sites indeholder det samme. • Brute Force: Sammenligner alle værts-par med hinanden. Ineffektiv. • DNS gætteri: Siden http://foo.com indeholder sandsynligvis det samme som http://foo.co.uk.

  10. Vaguely-Structured Data • Information gemt i databaser er meget struktureret. • Information i tekst-dokumenter er meget ustruktureret. • Webpages er Vaguely-Structured. • HTML tjener til en vis grad også et semantisk formål. • Søgemaskiner skal tage højde for semantikken og layout. • Mange fejl i markup er et tegn på en ”dårlig” side.

More Related