1 / 91

Sistemas de RI na Web

Sistemas de RI na Web. Adriano Melo Amora Albuquerque Anália Lima Eduardo Pires Ivan França. Roteiro. Introdução Objetivos Entendendo a Web Arquiteturas Técnicas Estratégia de Busca Crawlers Browsing Metabuscas Conclusão . A Web.

tara
Télécharger la présentation

Sistemas de RI na Web

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sistemas de RI na Web Adriano Melo Amora Albuquerque Anália Lima Eduardo Pires Ivan França

  2. Roteiro • Introdução • Objetivos • Entendendo a Web • Arquiteturas • Técnicas • Estratégia de Busca • Crawlers • Browsing • Metabuscas • Conclusão

  3. A Web Pode ser vista como uma grande base de dados não estruturada e ubíqua Surge a necessidade de ferramentas para gerenciar, buscar e filtrar informações

  4. Formas de busca na Web Engenhos de busca Diretórios de sites Exploração de hyperlinks

  5. +1.000.000.000 de buscas sãorealizadaspordia Google data, September 2010

  6. +1.000.000.000 depessoas usam o googlea cadasemana Google data, September 2010

  7. 20% das buscas feitasnosúltimos 90 diasnuncatinhamsidofeitas antes Google Internal Data, April 2010

  8. 10 bilhões de imagens estãoindexadas no Google Images* (eram 250 milhõesem 2001) * TechCrunch, July 2010

  9. 115.000 filmes é a equivalência do total de uploads de vídeosfeitos no YouTube pormês

  10. 700 bilhões de execuções de vídeosforamrealizadas no YouTube em 2010

  11. 2.9 bilhões de horas sãogastaspormêsvendoosvídeos do YouTube

  12. quem tem acesso a esseconteúdo? todomundo! (excetoosvídeos do YouTube)

  13. 600 milhões de pessoas estãocadastradas no facebook* (250 milhõesentraramem2010) *Fim de 2010

  14. 9.3 bilhões de horas sãogastaspormêsnaspáginas do site

  15. 30 bilhões de documentos como links enotíciassãocompartilhados a cadamês no facebook

  16. Quem tem acesso a esseconteúdo? bind eosusuários do facebook

  17. Desafios Grande quantidade de dados Dados voláteis (mudammuito rápido) Acesso ao conteúdo produzido em redes sociais Conteúdoheterogêneo(multimídia, linguagem) Informações redundantese não estruturadas

  18. Entendendo a Web

  19. Caracterização da WEB • Mensurando a WEB • Organização atual da WEB • Arquiteturas

  20. Mensurando a WEB Qual o número de computadores conectados a internet? 500 milhões de hosts, em mais de 200 países.

  21. Mensurando a WEB

  22. Mensurando a WEB

  23. Mensurando a WEB Qual o número de websites na internet? • O Netcraft roda desde agosto de 1995 • Em maio de 2011 foram recebidas respostas de mais de 324 milhõeswebsites.

  24. Organização atual da WEB • WEB é uma coleção não controlada de documentos. • Inserção de documentos • Formato dos documentos • Engenhos de busca • Recuperar informações na WEB • Permitir a consulta por usuários

  25. Engenhos de Busca • Arquitetura • Centralizada • Usacrawlers(rastreadores) • Distribuída • A busca é realizada utilizando um esforço de coordenação entre vários gatherers e brokers

  26. Arquitetura Centralizada

  27. Arquitetura Centralizada • Crawlers (robots,spiders, wanderers) • Buscam páginas na WEB • Enviam para um servidor principal • Roda em um sistema local • Envia requisições servidores web remotos

  28. Arquitetura Centralizada • Indexer • Cada página baixada é processada localmente • A informação indexada é salva e a página é descartada • Exceção: alguns sites de busca mantêm um cachê local algumas cópias das páginas mais populares

  29. Arquitetura Centralizada • Principais dificuldades • Recolha dos dados • Natureza dinâmica da WEB • Volume de dados • Sobrecarga nos servidores web • Requisições de diferentes crawlers • Tráfego na WEB • Objetos recolhidos pelos crawlers • Informações recolhidas independentemente • Sem coordenação

  30. Arquitetura Distribuída • Novos elementos • Gatheres (recolhedores) • Brokers

  31. Arquitetura Distribuída • Gatherers (recolhedores) • Coletar e extrair informações de um ou mais servidores WEB • Tempos de coletas são periódicos • definidos pelo sistema

  32. Arquitetura Distribuída • Brokers • Obtém informações extraídas pelo Gatherer • Recuperam informações de Brokers • Mecanismo de indexação • Atualizando índices • Interface de consulta

  33. Arquitetura Distribuída • Vantagens • Redução na carga dos servidores web • Gatherers podem rodar em um servidor web sem gerar tráfego externo • Redução no tráfego da rede • Arquitetura centralizada retém todo os documentos, enquanto que a arquitetura distribuída move apenas o que é extraído pelos Gatherers • Evita trabalho redundante • Um gatherer envia informações para vários brokers, reduzindo repetição do trabalho

  34. Ranking na Web

  35. Base dos algoritmos mais utilizados Considerar a relevância de web pages por meio dos links • Incomming links • Outgoing Links

  36. Conceitos Básicos Uma página da web valiosa e informativa é geralmente apontado por um grande número de hiperlinks, ou seja, ele tem um grande indegree (“grau de entrada”). Essa página é chamada um “authority” Uma página da Web que aponta para muitas páginas “authority” é um recurso útil e é chamado de “hub”. Um “hub”tem geralmente uma grande outdegree (“grau de saída”). LINK ANALYSIS: HUBS AND AUTHORITIES ON THE WORLD WIDE WEB [CHRIS H.Q. DING, HONGYUAN ZHA , XIAOFENG HE , PARRY HUSBANDS , ANDHORST D. SIMON]

  37. Hypertext Induced Topic Selection (HITS) O algoritmo foi criado por Jon Kleinberg Precursor do Page Rank, utilizado pelo Google. • O algoritmo atribui pontuações de importância para os hubs eauthorities seguindo este conceito: Uma boa authority deve ser apontada por vários bons hubs e um bom hub deve apontar para várias boas authorities.

  38. Hypertext Induced Topic Selection (HITS) • Determinar subgrafo (S) composto pelo conjunto de páginas retornadas em uma busca e páginas que apontam e são apontadas por páginas deste conjunto. • Realizar várias iterações para determinar um “valor hub” e um “valor authority” para cada página do subgrafo. Esses valores são normalizados. • O algoritmo aplica iterações até que pesos de hub e authority cheguem a convergir, isto é, até que estes pesos não variem acima de um valor pré-determinado.

  39. Hypertext Induced Topic Selection (HITS) Todo este processamento, que leva cerca de alguns minutos, é realizado no momento da consulta. Por esta razão o HITS não atende ao requisito de tempo imposto pelos engenhos de busca comerciais, que é de poucos segundos. • Algumas extensões do algoritmo HITS que adicionaram análise de conteúdo à análise puramente estrutural foram desenvolvidas pelo projeto CLEVER da IBM. Combinando Informações Textuais e Estruturais na Recuperação de Documentos Web. [Roberta de Souza Coelho, Marcelo Nery dos Santos,Silvio Romero Lemos Meira]

  40. PageRank PageRank™é uma família de algoritmos de análise de rede que dá pesos numéricos a cada elemento de uma coleção de documentos hiperligados, como as páginas da Internet, com o propósito de medir a sua importância nesse grupo por meio de um motor de busca. O processo do PageRank™ foi patenteado pela Universidade de Stanford. Somente o nome PageRank™ é uma marca registrada do Google.

  41. PageRank e Google • O sistema PageRank é usado pelo motor de busca Google para ajudar a determinar a relevância ou importância de uma página. • O Google mantém uma lista de bilhões de páginas em ordem de importância, isto é, cada página tem sua importância na Internet como um todo. • A importância se dá pelo número de votos que uma página recebe. Um voto é um linkem qualquer lugar da Internet para aquela página. • Os votos de páginas de alta popularidade na Web contam mais do que os votos de sites de baixa popularidade. • Quanto mais links uma página de Web oferece, mais diluído seu poder de votação. • Uma boa unidade de medida para definir o PageRank™ de uma página pode ser a percentagem (%) de páginas que ela é mais importante.

  42. PageRank e Google O PageRank faz uma avaliação objetiva da importância de páginas da web, resolvendo uma equação de mais de 500 milhões de variáveis e 2 bilhões de termos. O mecanismo de pesquisa do Google também analisa o conteúdo completo de uma página e os fatores em fontes, subdivisões e a localização exata de cada palavra.

  43. Quais os sites com maior PageRank? O website Search Engine Genie atualizou sua lista dos websites com maior PageRank e tornou a informação pública no dia 20 de janeiro de 2011.

  44. Google Caffeine • Exibe taxa maior de resultados mais recentes devido sua atualização mais constante. • Ocupa cerca de 100 milhões de gigabytes de armazenamento em um banco de dados e adiciona novas informações auma taxa de centenas de milhares de gigabytes por dia.

  45. Google • Vídeo – Como Google funciona http://www.google.com/howgoogleworks/ • É possível manipular o PageRank™ atribuindo links descontextualizados com o objetivo da página, modificando a ordenação de resultados na pesquisa pelo Google e induzindo a resultados pouco relevantes ou tendenciosos. • Googlebombing failure ou miserablefailure: retornava biografia oficial da Casa Branca para o presidente dos EUA, George W. Bush e em sequência a página de Michael Moore, inimigo declarado do presidente dos EUA.

  46. Crawlers • SPIDERS, BOTS, etc.

More Related