1 / 68

Digitale Dokumenter

Digitale Dokumenter. bygget på en forelesning skrevet av Gisle Hannemyr, bearbeidet av Runar Eggen Høsten 2004. Introduksjon til digitale dokumenter Søkemotorer, agenter og roboter. Hypertekst. Røttene går tilbake til Vannevar Bush og essayet «As we may think» (1945)

tacita
Télécharger la présentation

Digitale Dokumenter

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Digitale Dokumenter bygget på en forelesning skrevet av Gisle Hannemyr, bearbeidet av Runar EggenHøsten 2004 Introduksjon til digitale dokumenterSøkemotorer, agenter og roboter

  2. Hypertekst • Røttene går tilbake til Vannevar Bush og essayet «As we may think» (1945) • http://www.csi.uottawa.ca/~dduchier/misc/vbush/awmt.html • Begrepet «hypertekst» ble skapt av Ted Nelson (1965), som i boka Literary Machines (1981) definerer det som «ikke-sekvensiell tekst». • Gjort til et et signifikant fenomen av Tim Berners-Lee gjennom World Wide Web (1989).

  3. As we may think […] publication has been extended far beyond our present ability to make real use of the record. The summation of human experience is being expanded at a prodigious rate, and the means we use for threading through the consequent maze to the momentarily important item is the same as was used in the days of square-rigged ships. (Bush, 1945)

  4. Digitale dokumenter • Siden WWW dukket opp på begynnelsen av 1990-tallet, har produksjonen av hypertekst vært formidabel (alle tall er fra 3. kvartal 2000 og må tas med en stor klype salt): • De mest pålitelige målingene gir nå en nedre grense for datamengden i den ”statiske” delen av WWW på 19 Terabyte/19 millioner bøker (Inktomi) • ”Deep web”: 7500 Terabyte (BrightPlanet) • Library of Congress, 17 millioner bøker/ 17 Terabyte • Lexis-Nexis: 11 Terabyte • Dialog: 11 Terabyte

  5. Internett og Wold Wide Web • Det er nå mer enn ti år siden Tim Berners-Lee første gang slapp løs World Wide Web og dermed skapte den største omveltningen siden Gutenberg i hvordan vi reproduserer og distribuerer informasjon. • Nå foreslår han at verden tar det neste steget på veien mot informasjons-samfunnet. Konseptet han nå forsøker å få aksept for er «den semantiske veven».

  6. Semantisk – hva betyr det? • Semantisk kommer fra det greske verbet semaino og betyr ”betyr”. • Det semantiske nettet blir dermed nettet med mening. • Dette henspiller på markupspråket, at labels (merkelapper) får mening.

  7. XML • XML står for extensible markup language. • Det er et språk for å definere markup-språk • Har dermed mange flere muligheter enn HTML. • Dere vil lære mer om dette i Tor Arne Dahls forelesning om XML.

  8. Wold Wide Web og publisering • Mulighetene for å publisere digitale dokumenter innebærer så mange endringer i forhold til tradisjonelle medier som bøker og fjernsyn at det ikke er plass til å beskrive alle her. • Men en av de viktigste endringene som World Wide Web, sammen med den underliggende infrastrukturen vi kaller Internett, brakte med seg var, på godt og ondt, en enorm demokratisering i adgang til å være «utgiver». • Før burde man helst eie et forlagshus og ha adgang til et større distribusjonsapparat gjennom bibliotek og bokhandler for å kunne publisere noe som hadde nedslagsfelt utenfor den nære familie og vennekrets.

  9. Informasjonsinfrastruktur • Infrastruktur: For å sette opp en forretningsvirksomhet, administrasjons- eller utdanningsprosjekt måtte man tidligere bygge bygninger, kontorer, veier, telefonlinjer, posttjenester og så videre. • Informasjons-infrastruktur: I dag kan man skape en forretningsvirksomhet, et administrasjons- eller utdanningsprosjekt ved å bruke Internett som infrastruktur.

  10. Dot.com-boblen • ”Alle” skulle drive handel over Internett. • Hvorfor sprakk boblen? • Er den kommet tilbake, og vil den sprekke igjen? • ”Brick and mortar”-bedrifter driver nå forretningsvirksomheten sin over internett • Flyselskaper og banker har rasjonalisert ved hjelp av Internett. Hvorfor ikke bilbiotek?

  11. Internett og Wold Wide Web • World Wide Web (sammen med Internett) har imidlertid gitt enhver med en datamaskin og minimale kunnskaper om å bruke et redigeringsprogram et redskap der man bokstavelig talt for noen få tusenlapper hadde adgang til et medium og et distribusjonsapparat som hadde hele verden som sitt nedslagsfelt. • Resultatet har blitt en eksplosjon av publikasjoner. Legger vi sammen det antall «sider» med tekst som i dag ligger offentlig tilgjengelig i World Wide Web, så tilsvarer det mer enn 7 milliarder bøker. Det er langt flere bøker enn det som for tiden befinner seg i verdens største bibliotek, amerikanske Library of Congress.

  12. WWW er ikke noe bibliotek • I et bibliotek er verkene i samlingen kategorisert og katalogisert, og de administreres av en kunnskapsrik stab som kan hjelpe brukerne til rette i informasjonsjungelen. • Ikke noe av dette finner vi på verdensveven. Selv slike selvsagte kategorier i bibliotekssammenheng som «forfatter» og «utgiver» kan det være en utfordring å finne ut av når vi står foran en nettpublikasjon.

  13. HTTP er en protokoll • En protokoll er en standard måte for datamaskiner å snakke sammen på. • http:// står for hypertext transfer protocol • Andre protokoller: ftp, mail osv.

  14. Internett er mye mer enn web • World wide web er bare en del av internett. • Internett er ”nettet mellom nettene” • Omfatter blant annet epost, filoverføring (ftp), nyhetsgrupper m.m. • Internett er en gammel oppfinnelse sammenliknet med www.

  15. Formal definition of the Internet The global information system that: • is logically linked together by a globally unique address space based upon the Internet protocol (IP) or its subsequent extensions/follow-ons, • is able to support communications using the transmission-control protocol/Internet protocol (TCP/IP) suite or its subsequent extensions/follow-ons and/or other IP-compatible protocols, and • provides, uses or makes accessible either publicly or privatly, high-level services layered on the communications and related infrastructure described herein.” — Federal Networking Council in a resolution, October 24, 1995

  16. Uformell definisjon av Internett A chaotic repository for the collective output of the world’s digital «printing presses». —Lynch 1997 Oversatt: Et kaotisk lager for den samlede produksjonen til verdens ”digitale trykkerier”.

  17. The Resource Discovery Problem • Først formulert av Alan Emtage og Peter Deutsch i Archie - an Electronic Directory Service for the Internet (1992) • Archie var en søkemotor innen ftp som kom før de weborienterte søkemotorene. • Før en bruker kan utnytte tjenestene som tilbys av internettsamfunnet eller aksessere informasjonen som tilbys av slike tjenester, må han vite om både eksistensen til tjenestene og vertene hvor de er tilgjengelige.

  18. Den overdrevne betydning av agenter • I litteraturen om softwareagenter blir det ofte hevdet at denne teknologien er i stand til å løse flere av de svært synlige problemene som brukere av moderne nettilkoblede datamaskiner møter, inkludert: • informasjonsoverflods-problemet • ressursoppdagelses-problemet • overdrevent kompliserte brukergrensesnitt • En agent er et program som handler (agerer) for brukeren, det vil si utfører oppgaver det har blitt pålagt. F.eks. vil Finn.no si fra hver gang det finner en jobb som passer med brukerens beskrivelse av hva han er interessert i.

  19. Status for agentene • Så langt har ikke software-agenter klart å få så mye som ventet ut av elektroniske kunnskapskilder. • Grunnen er antakelig at det er svært lite semantisk informasjon elektronisk tilgjengelig.

  20. Tidlig eksempel på elektronisk ressurs-gjenfinning • I1956 vedtok delstaten Pennsylvania en lov om å endre uttrykket “retarded child” til “exceptional child”. For å iverksette loven måtte man lokalisere alle steder i lovtekstene hvor ordet forekom. • Først ble en studentsatt til å lese gjennom lovene og liste opp alle forekomster av termen.Dessverre var unøyaktigheten for høy til å aksepteres. • Deretter ble lovene registrert på hullkort. Det ble da en triviell oppgave for datamaskinen å lese gjennom materialet og finne alle forekomster av termen. • Problemet var løst. Som et biprodukt fikk Health Law Center at University of Pittsburgh den fulle teksten av lovene i maskinlesbar form. • Senteret fant andre og mer spennende måter å utnytte dette materialet på. Fritekstelektroniske søkesystemervar født.

  21. Copernic • Copernic er en agent • Søker på Internett • Søker på din egen harddisk • Søker i filer • Lager sammendrag • Fjerner irrelevant stoff som annonser fra websider • Søkeagenten kan lastes ned gratis

  22. Tidlig ”ressursoppdagelse” • Lexis-Nexis, Dialog – proprietary space • Archie - ftp-space (recorded pathname only) • Veronica (Very Easy Rodent Oriented Net-wide Index of Computerized Archives) – gopher-space • WAIS (Wide Area Information Services) – self contained, directory of servers exchange • Yahoo – manual indexing of web resources • AltaVista – first true web search engine

  23. The Resource Discovery Problem • The resource discovery problem encompasses not only how to find resources. • Having discovered a resource, the user needs to assess its quality, relevance, topicality, significance and suitability. • If the discovery process yields pointers to several alternative resources, the user needs the means to qualify them and to identify the resource or resources that provide the “best fit” for the problem at hand.

  24. Så kom søkemotorene for web • De er radikalt forskjellige fra tidligere systemer i og med at de: • bruker roboter istedenfor arkivarer til datafangst. • Skiller mellom dataspace og search space. • Initielt var de 100% basert på fritekstsøk. • Kjernebegrep: URI

  25. Løsningen på kaoset? • Roboter og søkemotorer • Roboter (spidere) går gjennom nettet og legger inn nettsider i kjempemessige databaser ”uberørt av menneskehånd”. • Søkemotorene søker i databasene. • Eksempler på søkemotorer: google, kartoo, vivissimo, exalead, teoma, alltheweb, hotbot, altavista osv...

  26. A Resource According to RFC 2396 (Uniform Resource Identifier: URI) • A resource is anything that has identity: • Familiar examples include an electronic document, an image, a service (e.g., «today's weather report for Los Angeles»), and a collection of other resources. Not all resources are network «retrievable»; e.g., human beings, corporations, and bound books in a library can also be considered resources. • More complex than a database key or a Dewey identifier: • The resource is the conceptual mapping to an entity or set of entities, not necessarily the entity which corresponds to that mapping at any particular instance in time. Thus, a resource can remain constant even when its content - the entities to which it currently corresponds - changes over time, provided that the conceptual mapping is not changed in the process.

  27. Søkemotorer • Globale søkemotorer • Google (størst) • Exalead (bedre søk) • AltaVista (var først) • Metasøkemotorer • AskJeeves • DogPile • MetaCrawler • Mediaorienterte s.m. • Google Image Search • ftp-søk • Mp3-søk • Emneorienterte s.m. • Cora (naturvitenskap) • Sara (statistikk) • Kulturnettsøk (kultur i Norge) Informasjon om søkemotorer: http://internetbrus.com/blog.php

  28. Hvordan fungerer de • Et program, vanligvis kalt en “robot” (også kjent som en “scooter”, “drone”, “spider” eller “web crawler”) går gjennom Internett og trekker ut data om ressursenesom det finner • Dataene som ble trukket ut av roboten lagres i en database på søkemotorens vertsmaskin(er)og bearbeides og struktureres for søking • Dataene søkes i gjennom et brukergrensesnitt, og resultatet av søkene vises som et ordnet sett.

  29. Robot (datafangst) Søkespesifikasjon Filterspesifikasjon Søkbart datasett Resultatsett Rangering Presentasjon Figur 1: Anatomien til en typiskInternett søkeportal Virkemåten til en søkemotor Søket etableres gjennom at brukeren angir hva det skal søkes etter (en søkespesifikasjon). Ofte har bruken brukeren muligheten til å begrense søket gjennom ett eller flere filtre som typisk er knyttet til metadata som under datafangsten er syntetisert ut fra dataene selv, URLen og/eller HTML-markeringer.

  30. Bruk av søkemotorer • De klassiske informasjonstjenestene ble typisk bygget opp for å håndtere søkebehovene til profesjonelle søkere (for eksempel ble Dialog started som en intern service ved Lockheed Aerospace Corporations bibliotek i 1965). Da denne tjenesten ble tilgjengelig for eksterne kunder i begynnelsen av 1980-årene, var deres typiske bruker en profesjonell bibliotekar som handlet på vegne av en akademisk institusjon eller en betalende kunde som brukte systemet for profesjonell research. • Internetts søkemotorer er gratis tilgjengelige, og hovedvekten av deres brukere anvender dem ikke for arbeidsrelaterte aktiviteter. En analyse av loggen til den en gang så populære AltaVista-søkemaskinen foretatt høsten 1998 gav disse mest brukte termene: sex, applet, porno, mp3, chat, warez, yahoo, playboy, xxx, hotmail (Silverstein et al 1998). En tilsvarende sjekk i mars 1999 (Blast 1999) gav en nesten identisk liste.

  31. Internett er blitt for stort • Internettet er blitt for stort for manuell registrering av websider • Noen av de manuelle forsøkene har imidlertid svært høy kvalitet, som for eksempel Yahoo.

  32. Hva er forskjellen -1 • Forskjellen på en robot og en søkemotor er at roboten samler inn dataene og søkemotoren finner dem fram for deg når du søker. • Forskjellen på katalogtjenesten Yahoo og en søkemotor er at Yahoo er bygget opp av mennesker.

  33. Hva er forskjellen - 2 • Forskjellen på en typisk arkiv/biblioteksdatabase og en søkemotor er at arkiv/biblioteksbasen er bygget ”for hånd” av bibliotekarer. • De første hybridene har imidlertid kommet. • Bibliotek- og arkivsystemer kan bruke roboter for å fulltekstindeksere organisasjonens dokumenter. • Forfatteren kan legge inn metadata. • Hva blir bibliotekarens rolle?

  34. En bekymret katolikk • «Når jeg for eksempel ønsker informasjon om hva som er riktig katolsk lære går jeg til den katolske kirkes egne websider. Fortrinnsvis den norske katolske kirke – altså de offisielle katolske websidene for Norge. Av og til går jeg også til New Advent, selv om jeg vet at de en god del for konservative for min smak, de er for eksempel litt mer rosende ovenfor en del kontroversielle paver enn jeg ville vært, men absolutt en troverdig kilde. Det er viktig for oss katolikker at vi får korrekt informasjon. Tenk deg for eksempel at noen tok et offisielt pavelig dokument og fjernet ordet “ikke”. Måten jeg vet at de nevnte webstedene er troverdige på er at jeg ser på den informasjonen som ligger der, og måten de har strukturert informasjonen på, og ut fra det bygges tilliten til disse webstedene opp over tid.»

  35. Hvordan vurdere kilder på nett • ”Løkskrelling” for å se hvem som står bak. • Er det en offentlig myndighet eller en kilde du kjenner? • Refererer andre til kilden? • Virker stoffet gjennomarbeidet og ortografien bra? • Vi kommer tilbake til dette på slutten av forelesningen.

  36. Hvordan lure søkemotorene • Meta-data • Man kan legge inn repeterte ord. • Man kan legge inn ord som ikke beskriver egen side. • Lenker • Søkemotorene ser gjerne på hvor mange ganger en side er blitt lenket til fra andre nettsteder. Hvis flere nettsteder samarbeider om å lenke til hverandre, får de høy rangering. • Bruke spesialister

  37. Synliggjøring av biblioteksystemer • Biblioteksystemer AS: • <meta name="keywords" content="biblioteksystem, biblioteksystemer, samsøk,kikkhullet, websøk, safarisøk,dugnadsbasen"> • Bibliotekenes IT-senter: • <META NAME="keywords" CONTENT="Mikromarc,service,tidsskrifter,bibliotek,biblotek,Micromarc,Library automationsoftware,Mikromarc,Micromark,biblioteksystem,bibliotekssystem,biblioteksystemer,tidsskrifthåndtering,tidsskriftsystem,periodikasystem,z39.50,Aleph,Metalib,SFX,DigiTool,NetLoan,portal,ebib,bibliotek,sentraldrift,sentraldrift,ASP,programvare,bibliotekautomatisering,biblioteksautomatiseringWin32,Windows,Win95,Windows95,NT,WebCat,Websæk,WebOPAC,OPAC,bibliotekscentrum,BIC,Europe,Norway,Sweden,Denmark,Iceland,Samisk,English,Internet search,Norge,Sverige,Danmark"> • <META NAME="description" CONTENT="Mikromarc library automation software. PC/Windows/NT/Windows 2000/Windows XP/DOS, Client/Server, RDBMS"> • Søk i forskjellige søkemotorer på biblioteksystem gir svært forskjellige treff.

  38. Roboter kan manipuleres

  39. Hva er spam? • SPAM er opprinnelig en forkortelse for SPiced hAM fra Hormel Foods. Se http://www.spam.com • Ordets mer moderne betydning ble introdusert av Monty Python’s Flying Circus i en sketsj der en gjeng med vikinger synger ordet ”spam” og stanser all videre konversasjon. Se http://www.spam.com/ci/ci_in.htm • Ordet brukes nå mest om uønsket reklame-epost, (Unsolicited Commercial Email eller UCE). Har også blitt brukt om ”index spam”, det vil si manipulerte, verdiløse søkemotortreff)

  40. Searching for “Bauhaus”

  41. Keyword spam Siden gir 66% score – ledsaget av følgende forklarende tekst: INFORMATION CONTENT IS FOCUSED TOWARDS KEY TOPICS The text appears to be very significant. It should be highly interesting due to high information value. It addresses key issues such as bauhau, art, architecture, bauhau style, national socialism, architecture movement, nazism, craft movement and craft. Relevant.Some core concepts such as architect ludwig mie van der rohe, dessau, germany, fine art, international style, art academy, craftsmanship, craftsman william morri and aesthetic standard are addressed in an informative way. Denne siden er imidlertid bare en online ordliste inneholdende drøyt 45 tusen ord i alfabetisk rekkefølge, inklusive: art, academy, aesthetic, architect, architecture, bauhaus, craft, craftsman, fine, germany, international, ludwig, morris, movement, national, nazism, socialism, standard, style, van og william.

  42. Problemer med søkemotorer • Fritekstsøk gir for dårlig kvalifiserte data: • Ikke vanskelig å finne materiale på web om George W. Bush • Vanskeligere å finne materiale der George W. Bush er forfatteren. Kan bruke http://www.ubka.uni-karlsruhe.de/kvk.html

  43. Søking er big business • Fast og Google • Norske Fast tapte kampen om Internett, men gjør det bra med søking i bedriftenes egne data som forretningsområde • Finn.no og Notar.no • Notar er et eiendomsmeglerfirma og de lanserte et søk som søkte i Aftenpostens Finn.no sine boligannonser. Dette likte Finn.no så dårlig at de forsøkte å stenge Notar ute, både teknisk (IP-adresse) og rettslig.

  44. Kamp om faglitteraturen • OAIster er navnet på en ny søkemotor for felles faglitteratursøk. Den utvikles ved Universitetet i Michigan. "OAI" står for "Open Archives Initiative". • Universitetet i Michigan mistenker,ifølge Universitetsavisa, at Google prøver å inkludere OAIster-materiale i sitt søk uten tillatelse, slik at Google-søket skal bli mest mulig fullstendig. Da Chronicle of Higher Education prøvde å spørre Google om dette, ønsket de ikke å uttale seg.

  45. Mer enn Google • http://www.exalead.com • http://www.mooter.com • http://www.oaister.umdl.umich.edu/o/oaister/ • http://www.teoma.com/ • http://www.webbrain.com • Bærum folkebibliotek

  46. Egenskaper • Google: stor, ikke trunkering (primitivt søk) • Exalead: avansert søk, clustering, fonetisk søk (eks.: sannefjoor) • Webbrain: Visuell clustering • Vivissimo: Clustering • Mooter: Visuell clustering, ikke æøå • Teoma: Forslag til innsnevring, markerer sponsede lenker • kartoo: Visuell clustering, viser sponsing, metasøkemotor

  47. Hvordan søker folk? • Ifølge Jansen og Pooch. A review of web searching studies and a framework for future research (2000) • Ca to ord per søk • De fleste ser på ti eller færre dokumenter • 10 % av søk med boolske operatorer • 70 % hevder de fant relevant stoff

  48. Søkemotorer, ytelsemåling • Klassisk vurderes søkemotorer ved at man ser på: • Relevans: dvs. evnen i form av evne til å finne relevante dokumenter og evne til å ekskludere irrelevante. • Presisjon: dvs. evnen til å rangere relevante dokumenter først.

  49. Søkemotorer, ytelsemåling • Når man søker på Internett er funnmengden i praksis ubegrenset oppad. Vi må altså modifisere de klassiske målemetidene ved å velge et begrensningspunkt (cut-off point, eller cop, i figuren neste lysbilde). • Erfaring viser at brukere av søkemotorer sjelden forholder seg til funn ut over side 1 (vanligvis de 10 første funn), så det ble valgt å sette avskjæringspunktet til 10. • Dokumentene deles så inn i fire mengder. som illustrert i tabellen på neste slide.

  50. ABOVE COP BELOW COP F(ok)relevant over cop ¬F(ok)noise1 (ok)all wanted F(¬ok)noise2 ¬F(¬ok)irrelevant below cop (¬ok)all unwanted (acop) = F(ok+¬ok) (bcop) = ¬F(ok+¬ok) all resources Søkemotorer, ytelsemåling yes Relevant no

More Related