Managing Web Data: Tools and Strategies

Sistemas de RI na Web Adriano Melo Amora Albuquerque Anália Lima Eduardo Pires Ivan França

Roteiro • Introdução • Objetivos • Entendendo a Web • Arquiteturas • Técnicas • Estratégia de Busca • Crawlers • Browsing • Metabuscas • Conclusão

A Web Pode ser vista como uma grande base de dados não estruturada e ubíqua Surge a necessidade de ferramentas para gerenciar, buscar e filtrar informações

Formas de busca na Web Engenhos de busca Diretórios de sites Exploração de hyperlinks

+1.000.000.000 de buscas sãorealizadaspordia Google data, September 2010

+1.000.000.000 depessoas usam o googlea cadasemana Google data, September 2010

20% das buscas feitasnosúltimos 90 diasnuncatinhamsidofeitas antes Google Internal Data, April 2010

10 bilhões de imagens estãoindexadas no Google Images* (eram 250 milhõesem 2001) * TechCrunch, July 2010

115.000 filmes é a equivalência do total de uploads de vídeosfeitos no YouTube pormês

700 bilhões de execuções de vídeosforamrealizadas no YouTube em 2010

2.9 bilhões de horas sãogastaspormêsvendoosvídeos do YouTube

quem tem acesso a esseconteúdo? todomundo! (excetoosvídeos do YouTube)

600 milhões de pessoas estãocadastradas no facebook* (250 milhõesentraramem2010) *Fim de 2010

9.3 bilhões de horas sãogastaspormêsnaspáginas do site

30 bilhões de documentos como links enotíciassãocompartilhados a cadamês no facebook

Quem tem acesso a esseconteúdo? bind eosusuários do facebook

Desafios Grande quantidade de dados Dados voláteis (mudammuito rápido) Acesso ao conteúdo produzido em redes sociais Conteúdoheterogêneo(multimídia, linguagem) Informações redundantese não estruturadas

Entendendo a Web

Caracterização da WEB • Mensurando a WEB • Organização atual da WEB • Arquiteturas

Mensurando a WEB Qual o número de computadores conectados a internet? 500 milhões de hosts, em mais de 200 países.

Mensurando a WEB

Mensurando a WEB Qual o número de websites na internet? • O Netcraft roda desde agosto de 1995 • Em maio de 2011 foram recebidas respostas de mais de 324 milhõeswebsites.

Organização atual da WEB • WEB é uma coleção não controlada de documentos. • Inserção de documentos • Formato dos documentos • Engenhos de busca • Recuperar informações na WEB • Permitir a consulta por usuários

Engenhos de Busca • Arquitetura • Centralizada • Usacrawlers(rastreadores) • Distribuída • A busca é realizada utilizando um esforço de coordenação entre vários gatherers e brokers

Arquitetura Centralizada

Arquitetura Centralizada • Crawlers (robots,spiders, wanderers) • Buscam páginas na WEB • Enviam para um servidor principal • Roda em um sistema local • Envia requisições servidores web remotos

Arquitetura Centralizada • Indexer • Cada página baixada é processada localmente • A informação indexada é salva e a página é descartada • Exceção: alguns sites de busca mantêm um cachê local algumas cópias das páginas mais populares

Arquitetura Centralizada • Principais dificuldades • Recolha dos dados • Natureza dinâmica da WEB • Volume de dados • Sobrecarga nos servidores web • Requisições de diferentes crawlers • Tráfego na WEB • Objetos recolhidos pelos crawlers • Informações recolhidas independentemente • Sem coordenação

Arquitetura Distribuída • Novos elementos • Gatheres (recolhedores) • Brokers

Arquitetura Distribuída • Gatherers (recolhedores) • Coletar e extrair informações de um ou mais servidores WEB • Tempos de coletas são periódicos • definidos pelo sistema

Arquitetura Distribuída • Brokers • Obtém informações extraídas pelo Gatherer • Recuperam informações de Brokers • Mecanismo de indexação • Atualizando índices • Interface de consulta

Arquitetura Distribuída • Vantagens • Redução na carga dos servidores web • Gatherers podem rodar em um servidor web sem gerar tráfego externo • Redução no tráfego da rede • Arquitetura centralizada retém todo os documentos, enquanto que a arquitetura distribuída move apenas o que é extraído pelos Gatherers • Evita trabalho redundante • Um gatherer envia informações para vários brokers, reduzindo repetição do trabalho

Ranking na Web

Base dos algoritmos mais utilizados Considerar a relevância de web pages por meio dos links • Incomming links • Outgoing Links

Conceitos Básicos Uma página da web valiosa e informativa é geralmente apontado por um grande número de hiperlinks, ou seja, ele tem um grande indegree (“grau de entrada”). Essa página é chamada um “authority” Uma página da Web que aponta para muitas páginas “authority” é um recurso útil e é chamado de “hub”. Um “hub”tem geralmente uma grande outdegree (“grau de saída”). LINK ANALYSIS: HUBS AND AUTHORITIES ON THE WORLD WIDE WEB [CHRIS H.Q. DING, HONGYUAN ZHA , XIAOFENG HE , PARRY HUSBANDS , ANDHORST D. SIMON]

Hypertext Induced Topic Selection (HITS) O algoritmo foi criado por Jon Kleinberg Precursor do Page Rank, utilizado pelo Google. • O algoritmo atribui pontuações de importância para os hubs eauthorities seguindo este conceito: Uma boa authority deve ser apontada por vários bons hubs e um bom hub deve apontar para várias boas authorities.

Hypertext Induced Topic Selection (HITS) • Determinar subgrafo (S) composto pelo conjunto de páginas retornadas em uma busca e páginas que apontam e são apontadas por páginas deste conjunto. • Realizar várias iterações para determinar um “valor hub” e um “valor authority” para cada página do subgrafo. Esses valores são normalizados. • O algoritmo aplica iterações até que pesos de hub e authority cheguem a convergir, isto é, até que estes pesos não variem acima de um valor pré-determinado.

Hypertext Induced Topic Selection (HITS) Todo este processamento, que leva cerca de alguns minutos, é realizado no momento da consulta. Por esta razão o HITS não atende ao requisito de tempo imposto pelos engenhos de busca comerciais, que é de poucos segundos. • Algumas extensões do algoritmo HITS que adicionaram análise de conteúdo à análise puramente estrutural foram desenvolvidas pelo projeto CLEVER da IBM. Combinando Informações Textuais e Estruturais na Recuperação de Documentos Web. [Roberta de Souza Coelho, Marcelo Nery dos Santos,Silvio Romero Lemos Meira]

PageRank PageRank™é uma família de algoritmos de análise de rede que dá pesos numéricos a cada elemento de uma coleção de documentos hiperligados, como as páginas da Internet, com o propósito de medir a sua importância nesse grupo por meio de um motor de busca. O processo do PageRank™ foi patenteado pela Universidade de Stanford. Somente o nome PageRank™ é uma marca registrada do Google.

PageRank e Google • O sistema PageRank é usado pelo motor de busca Google para ajudar a determinar a relevância ou importância de uma página. • O Google mantém uma lista de bilhões de páginas em ordem de importância, isto é, cada página tem sua importância na Internet como um todo. • A importância se dá pelo número de votos que uma página recebe. Um voto é um linkem qualquer lugar da Internet para aquela página. • Os votos de páginas de alta popularidade na Web contam mais do que os votos de sites de baixa popularidade. • Quanto mais links uma página de Web oferece, mais diluído seu poder de votação. • Uma boa unidade de medida para definir o PageRank™ de uma página pode ser a percentagem (%) de páginas que ela é mais importante.

PageRank e Google O PageRank faz uma avaliação objetiva da importância de páginas da web, resolvendo uma equação de mais de 500 milhões de variáveis e 2 bilhões de termos. O mecanismo de pesquisa do Google também analisa o conteúdo completo de uma página e os fatores em fontes, subdivisões e a localização exata de cada palavra.

Quais os sites com maior PageRank? O website Search Engine Genie atualizou sua lista dos websites com maior PageRank e tornou a informação pública no dia 20 de janeiro de 2011.

Google Caffeine • Exibe taxa maior de resultados mais recentes devido sua atualização mais constante. • Ocupa cerca de 100 milhões de gigabytes de armazenamento em um banco de dados e adiciona novas informações auma taxa de centenas de milhares de gigabytes por dia.

Google • Vídeo – Como Google funciona http://www.google.com/howgoogleworks/ • É possível manipular o PageRank™ atribuindo links descontextualizados com o objetivo da página, modificando a ordenação de resultados na pesquisa pelo Google e induzindo a resultados pouco relevantes ou tendenciosos. • Googlebombing failure ou miserablefailure: retornava biografia oficial da Casa Branca para o presidente dos EUA, George W. Bush e em sequência a página de Michael Moore, inimigo declarado do presidente dos EUA.

Crawlers • SPIDERS, BOTS, etc.

Managing Web Data: Tools and Strategies

Managing Web Data: Tools and Strategies

Presentation Transcript

Sistemas Embarcados na ind

Sistemas de Informação na Organização

Ferramentas de busca na WEB

Sistemas Especialistas na Operação de Sistemas Elétricos

Progressos realizados na teoria geral de sistemas

SISTEMAS DE INFORMAÇÃO NA EMPRESA

PHP e Sistemas de Informação Web

Avaliação De Sistemas De Recuperação De Informação (RI):

Sistemas de Informa çã o na Logistica

Sistemas de RI selecionam termos de indexação para o processamento de consultas

Segurança de Aplicações na Web

Sistemas de Informação Gerenciais na Era Digital

DESENVOLVIMENTO DE SISTEMAS PARA WEB

Desenvolvimento de Sistemas Distribuídos Web Services

Sistemas de Recuperación de Información Web

Metodologia para Desenvolvimento de Sistemas Web

Mecanismos de Busca na Web

Sistemas de Informação Utilizando Recursos Web

Segurança de Aplicações na Web

Registrering på RI web

Sistemas de incentivos baseados na criação de valor

Metodologia para Desenvolvimento de Sistemas Web