1 / 27

Presentazione a cura del gruppo 7 : Cristian Caruso Matteo Degli Esposti Claudia Fontan

Link Spam Alliances. di Zoltàn Gy öngyi Hector Garcia-Molina Stanford University Computer Science Department. Presentazione a cura del gruppo 7 : Cristian Caruso Matteo Degli Esposti Claudia Fontan. Relatore: Claudia Fontan. Sistemi Informativi LS a.a. 2005-06. Outline.

lyle-walker
Télécharger la présentation

Presentazione a cura del gruppo 7 : Cristian Caruso Matteo Degli Esposti Claudia Fontan

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Link Spam Alliances • di Zoltàn Gyöngyi • Hector Garcia-Molina • Stanford University • Computer Science Department Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan • Relatore: Claudia Fontan • Sistemi Informativi LS • a.a. 2005-06

  2. Outline • Introduzione al web spam • Formulazione del PageRank • Studio delle Spam Farm: • Analisi di una singola Farm • Alleanze tra due Farm • Caso multi-Farm • Spam detection “Conosci il tuo nemico; Conoscilo e l’avrai per metà vinto.” (Confucio) Link Spam Alliances - gruppo 7

  3. Spam: perché? • L’uso di motori di ricerca per rintracciare indirizzi Internet è sempre più diffuso [FMN] • Assicurarsi un ranking alto coincide con l’aumentare le proprie entrate • Nel periodo aprile-giugno 2005 negli USA le vendite tramite eCommerce hanno rappresentato il 2.2% del totale (941.282 milioni di dollari) [USC] …e se non si è ai primi posti si cerca di “plasmare” i risultati… Link Spam Alliances - gruppo 7

  4. Spam: definizione Lo spamming è dannoso[NAJ] • Per gli utenti • Rende più difficile trovare le informazioni desiderate • Scoraggia l’utente • Per i motori di ricerca • Spreca la banda del crawler • Inquina la rete con pagine di spam • Distorce il ranking reale dei risultati Spamming: ingannare i motori di ricerca per ottenere un ranking più elevato di quanto ci si meriti in realtà Link Spam Alliances - gruppo 7

  5. Link Spam Link Spam: si costruiscono strutture di pagine interconnesse per aumentare il PageRank di uno o più target Link Spam Alliances - gruppo 7

  6. PageRank (1 – c) 1N cT’p p = + N • Una pagina è importante se è puntata da tante altre pagine importanti • Essendo basato sulla struttura dei collegamenti, l’algoritmo del PageRank può essere vulnerabile al Link Spamming PageRank della pagina p0: link uscenti da pi p0 = cΣipi/|F(i)| + (1-c) PageRank di pi che punta a p0 damping factor random jump Generalizzando: matrice di transizione Link Spam Alliances - gruppo 7

  7. Spam Farm: pagine • Target page • Ogni Farm ne ha una sola • L’obiettivo dello spammer è aumentare il suo ranking λ1 p1 λ0 ? λ2 p2 p0 λk pk • Boosting pages • Sono controllate dallo spammer • Puntano al target per aumentare il suo PageRank Link Spam Alliances - gruppo 7

  8. Spam Farm: link esterni λ1 p1 λ0 ? λ2 p2 p0 λk pk • Leakage • PageRank aggiunto al target da pagine al di fuori della Farm (forum, blog, …) • Lo spammer non ne ha il controllo • λ = λ0 + … + λk Link Spam Alliances - gruppo 7

  9. Optimal Farm • Ottimale • Il target punta alle boosting pages p1 λ λ λ p2 (1 – c)(ck + 1) q0 q0 p0 q0 = p0 / (1 – c2) cλ p0 = + N q1 pk q2 q2 qk q1 qk • Intuitivo • Ogni boosting page punta unicamente al target Intuitivamente: target e boosting pages si rinforzano a vicenda Link Spam Alliances - gruppo 7

  10. Alleanze tra due Farm • Intuitivo • Ogni boosting page punta ad entrambi i target • Economico • Si interconnettono unicamente i target p0 q0 p0 q0 p1 p2 pk q1 q2 qm p1 p2 pk q1 q2 qm • (k + m) nuovi link • solo 2 nuovi link • Redistribuzione del PageRank • conveniente per la Farm più piccola q0 = p0 = d(k + m)/2 [d = c/N(1 + c)] Link Spam Alliances - gruppo 7

  11. Alleanze tra due Farm • Ottimo • Ogni target punta all’altro target • I target non hanno link alle boosting pages p1 q1 p0 q0 p2 q2 qm pk 1 ck + c2m p0 = + (1 + c)N N Intuitivamente: questo modello risulta vincente perché concentra tutto il PageRank sui target minimizzando quello delle boosting pages • Incremento del PageRank • conveniente per entrambe le Farm Link Spam Alliances - gruppo 7

  12. Alleanze multi-Farm r1 r2 rn p1 q1 p0 q0 p2 q2 r0 qm pk core • Due strutture fondamentali: • Web ring • Complete core Link Spam Alliances - gruppo 7

  13. Web ring 1 ck + c2m + c3n p0 = + (1 + c + c2)N N r1 r2 rn p1 q1 p0 q0 p2 q2 r0 qm pk • Modalità di connessione più semplice ed intuitiva • la distanza influenza il contributo di ogni Farm al PageRank delle altre Link Spam Alliances - gruppo 7

  14. Complete core 1 2ck – c2k + c2m + c2n p0 = + (2 + c)N N r1 r2 rn p1 q1 p0 q0 p2 q2 r0 qm pk • Il core è un sotto-grafo completamente connesso • il contributo di ogni Farm al PageRank delle altre è uniforme Link Spam Alliances - gruppo 7

  15. Riassumendo Web ring: Il PageRank del target della Farm 10 diminuisce rispetto al caso di non connessione Complete core: aumentano tutti i PageRank, soprattutto quelli dei target delle Farm di minori dimensioni Farm non connesse: il PageRank del target è lineare nella dimensione della Farm (numero di boosting pages) Link Spam Alliances - gruppo 7

  16. Riassumendo • Contributo della Farm 1 agli altri target Complete core: si conserva la maggiorparte del PageRank, agli altri target viene dato un identico contributo molto minore Web ring: i valori dei contributi sono vicini tra loro e diminuiscono all’aumentare della distanza Link Spam Alliances - gruppo 7

  17. Entrare in un’alleanza ck + c2m ck + c2m + c3n > (1 + c)N (1 + c + c2)N k + cm n > (1 + c) • Web ring • Perchè p0 accetti r0 in un’alleanza con q0 organizzata secondo la struttura del Web ring è necessario rispettare le seguenti condizioni: PR(alleanza p, q, r) > PR(alleanza p, q) • Le dimensioni delle Farm già presenti determinano la dimensione minima che deve avere una Farm per essere accettata • La media pesata delle dimensioni delle Farm già presenti costituisce un lower bound sulla dimensione della nuova Farm • Il punto di inserimento della Farm entrante ne influenza la dimensione minima • Es: k = 20; m = 10: • Con FL a q  n = 16 Link Spam Alliances - gruppo 7

  18. Entrare in un’alleanza • La dimensione minima che deve avere una Farm per essere accettata è determinata considerando la Farm più piccola già presente nell’alleanza: k + m – (1 – c)min{k, m} arithmetic mean n n > > • La media aritmetica delle dimensioni delle Farm già presenti costituisce un lower bound sulla dimensione della nuova Farm (1 + c) • Es: k = 20; m = 10 • n = 16 per m; n = 15 per k  media aritmetica = 15 • La terza Farm deve avere almeno 16 boosting pages • Complete core • Perchè p0 accetti r0 in un’alleanza con q0 organizzata secondo la struttura del Complete core è necessario rispettare le seguenti condizioni: PR(alleanza p, q, r) > PR(alleanza p, q) Link Spam Alliances - gruppo 7

  19. Lasciare un’alleanza c - m(1 - c2) - cn(1 - c2) • Web ring • La Farm p0 decide di lasciare l’alleanza se: k > (1 - c) PR(non connessa) > PR(ring) ck + 1 1 ck + c2m + c3n > + (1 + c)N (1 + c + c2)N N • Nell’alleanza tra 10 Farm, risulta che il limite per la Farm 10 è 9091 avendo 10000 boosting pages, le conviene uscire dall’alleanza • Prima abbiamo osservato che: • Intuizione: la Farm 10 contribuisce troppo al PageRank dei suoi alleati e riceve troppo poco in cambio PR(10, non connessa) > PR(10, ring) Link Spam Alliances - gruppo 7

  20. Lasciare un’alleanza > 2 + c + (1 + c)(k + m + n) k > 7c2 • Contributi distribuiti in modo più uniforme rispetto al Web ring • Piccole differenze tra i limiti di dimensione per le diverse Farm ck + 1 (1 + c)N 1 2ck – c2k + c2m + c2n • Nell’alleanza tra 10 Farm, risulta che nessuna raggiunge la dimensione limite  a tutteconvienerestare nell’alleanza + (2 + c)N N • Complete core • La Farm p0 decide di lasciare l’alleanza se: PR(non connessa) > PR(complete core) Link Spam Alliances - gruppo 7

  21. Spam detection Idea di base: identificare strutture come quelle descritte in precedenza Obiettivo: determinate potenziali candidati per il link spamming • Zipfian distribution • Amplification factor • Spam mass Link Spam Alliances - gruppo 7

  22. Zipfian distribution λ p0 p1 p2 pk • Fetterly et al., 2004 • Le Farm sono spesso generate automaticamente ed hanno strutture molto regolari • Si analizzano i gradi di entrata ed uscita delle pagine • Molte pagine seguono la distribuzione di Zipfian • Agglomerati di pagine i cui gradi di ingresso ed uscita seguono questa distribuzione in modo esatto risultano spesso essere parte di una Farm ZD(p) = |F(1)| = |F(2)| = … = |F(k)| ZD(p) = |B(1)| = |B(2)| = … = |B(k)| Link Spam Alliances - gruppo 7

  23. Amplification factor p1 q1 p0 q0 p2 q2 pk qm colluding pages p0 + q0 1 = O 1 - c Σi pi + Σj qj • Zhang et al., 2004 • Una caratteristica comune delle Farm è la capacità dei target di catturare il PageRank proveniente dalle boosting pages • I target amplificano il contributo delle boosting pages • Amplification factor Amp(H): in un gruppo di H pagine, è il rapporto tra il PageRank delle pagine nel gruppo ed il contributo di quelle esterne • Se Amp(H) è dell’ordine di 1/(1–c), le pagine del gruppo possono essere target di Farm connesse in un’alleanza Link Spam Alliances - gruppo 7

  24. Spam mass p1 p0 – p’0 p0 = PageRank totale p’0 = PageRank parziale λ p0 p0 0 0 0 p2 p1 λ p’0 pk p2 pk • Zyöngyi et Garcia-Molina, 2005 • I target aumentano il proprio PageRank soprattutto grazie alle boosting pages • Il PageRank delle boosting pages è dovuto al random jump 1-c 1-c 1-c • Relative spam mass Mass(i): relativo alla pagina i, è il rapporto tra PageRank totale e PageRank con apporto del random jump posto a 0: • Per pagine che non hanno grandi benefici da boosting pages, Mass(i) tende a 0 • Se Mass(i) è elevato, la pagina i è probabilmente un target all’interno di una Farm Link Spam Alliances - gruppo 7

  25. Conclusioni • Le tecniche di Spam Detection presentate sono ancora sperimentali • Riescono spesso ad identificare solo il core di un’alleanza • Possono risultare utili, ma presentano ancora problemi • La tecnica riguardante la distribuzione di Zipfian non identifica strutture non regolari • La tecnica dell’Amplification factor identifica come alleanze di Farm anche gruppi di pagine che non lo sono • La tecnica basata sulla Spam Mass non identifica target che aumentano il proprio PageRank soprattutto grazie al leakage • Il primo passo per combattere realmente il Link Spam è conoscere a fondo le strutture proprie di questa tecnica • Il percorso che porta ad individuare tecniche realmente efficaci per combattere il Link Spamming è comunque ancora molto lungo… Link Spam Alliances - gruppo 7

  26. Riferimenti [FMN] “Spam, Damn Spam, and Statistics”, Dennis Fetterly, Mark Manasse, Mark Najork, 2004. research.microsoft.com/research/sv/PageTurner/webdb2004.pdf [GGM] “Link spam alliances” Technical Report, Stanford University, 2005. infolab.stanford.edu/~zoltan/publications.html [NAJ] “Heuristics for Detecting Spam Web Pages”, Mark Najork – Microsoft Research, Silicon Valley, 2005. www.cise.ufl.edu/~adobra/DaMn/talks/2005-10-26-Bertinoro.ppt [USC] U.S. Census Bureau, E-Stats www.census.gov/eos/www/ebusiness614.htm Link Spam Alliances - gruppo 7

  27. Demo …and now… WE WANT YOU see our Demo Link Spam Alliances - gruppo 7

More Related