1 / 45

Gestão e Recuperação de Informação

Gestão e Recuperação de Informação. Recuperação de Informação na Web. José Borbinha – DEI/IST. Recuperação de Informação na Web. O problema A Web superficial A Web profunda Outros assuntos. Recuperação de Informação na Web: O Problema. Quantos objectos? Quantas páginas? Como achar algo?.

lirit
Télécharger la présentation

Gestão e Recuperação de Informação

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

  2. Recuperação de Informação na Web • O problema • A Web superficial • A Web profunda • Outros assuntos

  3. Recuperação de Informação na Web: O Problema Quantos objectos? Quantas páginas? Como achar algo? http://news.netcraft.com/archives/2006/04/06/april_2006_web_server_survey.html

  4. O “cyberespaço” em 1995 http://robot-club.com/lti/pub/lycos-websize-9510.html

  5. O “cyberespaço” indexado pelo Lycos em 1995(“...Between Nov 21, 1994 and Jan 31, 1995, Lycos successfully downloaded at least one file from 15,858 unique HTTP servers...”) http://robot-club.com/lti/pub/lycos-websize-9510.html

  6. A “Web” em 1999...(“By analyzing the overlap between engines we estimated a lower bound on the size of the "publicly indexable Web" at 320 million pages (see below for more details). The "publicly indexable Web" excludes pages typically not indexed by the major search engines, e.g. pages behind search forms or authorization requirements. The following figure shows the estimated coverage of six major Web search engines compared to the estimated size of the Web.”) http://www.cs.biu.ac.il/home/search/studies/lawrence.htm

  7. Web Superficial Web Profunda Como achar algo na Web... ainda por cima quando nem tudo é estático...???

  8. Recuperação de Informação na Web • O problema • A Web superficial • Directórios e Catálogos • Search Engines • A Web profunda • Outros assuntos

  9. No princípio: Directórios e Catálogos • Yahoo, SAPO, ... • Subject Gateways (Renardus, ...) • ...

  10. Yahoo, SAPO, ...: Indexar a web “à mão”...

  11. “Subject Gateways”Renardus – Classificação de recursos de qualidade da web... “à mão”!!!

  12. Renardus “mapping tool”... ddc: Sistema de classificação decimal de Dewey

  13. A “raposa” não resistiu...

  14. Mas ainda restam alguns persistentes...

  15. Search Engines • Altavista, Google, A9, tumba!... • Anatomia de uma search engine

  16.                                  AltaVista                                 AltaVista Altavista...                                  Yahoo!

  17. 1998: Google!!!

  18. A9.com

  19. tumba! (Temos Um Motor de Busca Alternativo!) • Motor de busca para sites “portugueses” (de Portugal) • Suporte ao Arquivo da “Web Portuguesa”

  20. Anatomia de uma “Search Engine” Web Crawlers Repository Indexing Engine Ranking Engine Presentation Engine

  21. Uma nova área de negócio: ajudar clientes a ter os seus sites melhor “classificados” nos motores de busca... Caso: “big feet” e Google (Financial Times – UK, September 16, 2005) [http://www.ufppc.org/content/view/3416/36/]...

  22. btw, Caso da Semana...

  23. Recuperação de Informação na Web • O problema • A Web superficial • A Web profunda • Pesquisa distribuída • Partilha de Metadados • Outros assuntos

  24. A Web profunda • Pesquisa Distribuída • Z39.50 / SRU (relembrar aula 5)

  25. Servidores Z39.50 em bibliotecas Portuguesas:

  26. b-on

  27. Metalib (suporte à b-on...) Z39.50 HTTP/HTML ... http://www.emeraldinsight.com/fig/0721040101001.png

  28. A Web profunda • Partilha de Metadados • OAI-PMH, Syndication (RSS, ATOM, ...)

  29. OAI-PMHProtocol for Metadata Harvesting(http://www.oaforum.org/tutorial/image/structure-model.gif) Web-Services segundo o modelo REST...

  30. TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50

  31. Search and Retrieval in TEL: Actual Scenario OAI-PMH TEL central index Z39.50 Z39.50 SRU SRU TEL Portal...

  32. OAI-PMH OAI-PMH TEL central index SRU Z39.50 “intelligent” TEL Portal... Search and Retrieval in TEL: A Desired Scenario (project TELplus...)

  33. Scholar Google: interoperabilidade com a “Web Profunda”

  34. Scholar Google: interoperabilidade com a “Web Profunda”

  35. “link” para a “Web Profunda”...

  36. Google News Feeds em RSS (RDF) e ATOM (XML)

  37. Recuperação de Informação na Web • O problema • A Web superficial • A Web profunda • Outros assuntos • A Web Semântica • Preservação da Web

  38. A Web Semântica...

  39. Estática Dinâmica Superficial Profunda Preservação da Web

  40. Preservação da Web: Internet Archive

  41. Preservação da Web: waybackmachine

  42. Preservação Digital...

  43. Perguntas?

More Related