260 likes | 397 Vues
Keuzes in het zoekproces en structuur van het web. Jeroen Bosman VOGIN, 4 juni 2009 Wageningen. Kenmerken zoekexpert. Kennis onderwerp Bronnenkennis Kennis zoektools Talenkennis, taalcreativiteit Logica Zorgvuldig gebruik zoektools Snelheid Reflectie op eigen zoekproces.
E N D
Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 4 juni 2009 Wageningen
Kenmerken zoekexpert • Kennis onderwerp • Bronnenkennis • Kennis zoektools • Talenkennis, taalcreativiteit • Logica • Zorgvuldig gebruik zoektools • Snelheid • Reflectie op eigen zoekproces
Zoeksystematiek • Vraaganalyse • Wensen ‘opdrachtgever’ • Verkenning • Opstellen zoekprofiel: waaraan moet de informatie voldoen • Aanbod • Keuze ingang(en): zoekmachines, databases, gidsen, bookmarksites • Match • Daadwerkelijk zoeken • Selecteren • Nabewerking per relevante bron • Evaluatie • Opslaan, printen, delen • Eventueel doorzoeken via auteurs en verwijzingen uit gevonden bronnen • Nabewerking zoekactie geheel • Bij doorlopende interesse evt. web en page alerts/feeds instellen • Expliciete reflectie op zoekproces en zoekresultaat • Vervolg op zoekactie • Eventueel andere ingangen of geheel andere typen bronnen (gedrukte literatuur, deskundigen) • Reflectie
Vraaganalyse 1: wensen opdrachtgever • Opdrachtgever: wat wil men met de informatie? • Voorwaarden aan aard van informatie (onderzoek, opinie, peer reviewed, actualiteit etc.) • Randvoorwaarden: tijd, geld, vertrouwelijkheid • Rapportagevorm (inhoudelijk, technisch)
Vraaganalyse 2: Verkenning • Welke vraag/onderwerp • Wat ligt er al, nuttig als uitgangspunt? • Inhoudelijk verkennen (via bv Wikipedia of ander naslagwerk of via korte zoekactie) • Ideeën opdoen qua context, jargon, zoektermen, typen bronnen, auteurs
Vraaganalyse 3: Zoekprofiel • Onderscheiden elementen (variabelen) • Welke? • Allebei even belangrijk? • Vooraf genereren zoektermen • Uit reeds gevonden bronnen • Uit naslagwerken/zoekacties van verkenningsfase • Uit woordenboeken, thesauri (Het juiste woord, Roget’s Thesaurus) • Afbakening in tijd, ruimte, speciale omstandigheden waaronder een proces moet spelen • Relevante typen informatie en publicaties • Relevante publicatieperiode
Aanbod: Keuze zoekingang • Bepaald door zoekprofiel: onderwerp, type informatie, type publicatie, relevante publicatiejaren • Bepaald door beschikbaarheid: toegankelijkheid, kosten, licenties • Bepaald door extra wensen: • Zoekmethode: catalogus-, bibliografische, sneeuwbal(citatie)methode (op het web: zoekmachines, gidsen/directories, backlinks) • Zoeken in full-text, links naar full-text • Ook letten op volgorde ingangen (dekking, bekendheid, selectiviteit) • Zie voor links naar ingangen de ‘startpagina’ bij deze cursus
Match 1: Daadwerkelijk zoeken • Let op woordvarianten en spelling: • Varianten in OR-relatie of: • Trunceren: alles wat met woordstam begint (alleen Exalead) • Automatische “stemming” (enkel-/meervoud enz. bij Google?) • Oxford-English of American–English (s/z, ou/o) • Samenstellingen in Engels los: kwaliteitscontrole > quality control • Denken in termen van het te vinden document (jargon/slang), gebruik zinsnedes / exact phrase met “… …” • Gebruik termsuggesties • voor zoekactie Yahoo, Google Suggest • na zoekactie: Ask, Exalead, Quintura • termen uit gevonden goede webpagina’s • Gewicht aanbrengen met zoektermherhaling in Google • Voorbeeldzoeken voor ‘lijstjes’ • Iteratief proces: één of meer keren snelle beoordeling zoekresultaat en aanpassing termen/instellingen • Aantallen treffers: wel letten op veranderingen, niet op absolute niveau
Match 2: Selectie op relevantie • De rangorde: beïnvloeden, vertrouwen of alles bekijken? • Meer dan titels, bij boeken/artikelen: • samenvattingen • citaties • omvang (bv LexisNexis) • Bij web: • domein/organisatie • wel/niet PDF • omvang (in KB, vooral zinnig bij PDF)
Nabewerking per bron I: beoordeling • Inhoudelijk (vooral bij reguliere publicaties) • Status bron (peer reviewed, uitgever, gezaghebbende instantie) • Plaats in citatienetwerk (door wie, hoe vaak) • Bronvermelding (voldoende, geen kernpublicaties gemist) • Formeel (vooral bij websites): • Aanduiding maker/auteur (“about us”) • Aanduiding postadres, telefoonnummer • Aanduiding doel/doelgroep • Goede opmaak • Geen reclame en pop-ups • Heldere navigatie • Interne zoekfunctie • Voldoende snelheid server • Backlinks door gezaghebbende organisaties • Up to date? • Zinnige datering inhoud • Geen grof taalgebruik • Geen kinderlijk taalgebruik • Geen storende taalfouten
Nabewerking per bron II: • opslaan (mail, document, endnote/refworks/zotero e.d) • versturen (handmatig, vanuit systeem) • bookmark (browser, delicious, connotea, citeUlike etc.) • alert/spion • RSS-feed
Vervolg op zoekactie: Reflectie • Hoeveel gevonden in hoeveel tijd? • Voldoet oogst aan zoekprofiel? • Welke aspecten van zoekprofiel waren meest selectief? • Waren alle vooraf bedachte ingangen even nuttig? • Wat was de overlap tussen de ingangen? • Goede volgorde ingangen gehanteerd? • Iets geleerd over eigen sterke/zwakke punten?
domeinen • soorten top-level-domains (TLD) iso-3166 • generiek: • com / org / net (vrij) • int / edu / gov / mil / arpa (beperkt) • landen: nl/be/au/at/de/uk/us (ccTLD’s, 34%) • jump: tv / nu / to / tk • nieuw: biz/info/name/coop/pro/aero/museum/mobi • generieke ‘subtopleveldomeinen’: co / gob / ac / org etc. (zie http://www.iana.org/domains/root/db/ en http://www.whois365.com/en/listtld/gtld)
opbouw URL • protocol : // servernaam . subdomein . domein . TLD / map / filenaam . extensie • http : // www . library . uu . nl / geosource / index . html
URL’s van databasepagina’s • http://hardy.library.uu.nl:4505/ALEPH0/SESSION66067604868/scan?VALUE=geografische+huis&SCAN=TIT • http://www.ussc.alltheweb.com/cgi-bin/advsearch?offset=40&terms=3&type=any&query=utrecht&exec=FAST+Search&lang=any&enco=iso-88591&A1=+&A2=%2B&A3=-&hits=10&nooc=on
zoektools: wanneer wat? • indien zoekvraag feitelijk, specialistisch, met voorkennis, onder tijdsdruk: zoekmachines • indien zoekvraag breed, exploratief, inventariserend, met weinig voorkennis, met relatief veel tijd: onderwerpsgidsen
Onderwerpsgidsen: algemeen + geen zoektermen nodig vaak actueel annotaties weinig ruis - onvolledig dode links voorkeur maker houdt groei niet bij voor homepages
Onderwerpsgidsen • Alle onderwerpen: Open Directory, Yahoo • Nederlands: startpagina, meta: startnederland • Breed wetenschappelijk: Intute, Infomine, BUBL • Web2.0-variant: Delicious, Furl etc. • Zoeken: • via Yahoo (per onderwerp onder ‘webdirectories’) • via Open Directory • via Pinakes (wetenschappelijk) • Tijd besteden aan vinden van goede onderwerpsgidsen: • via collegae • via discussielijsten
Zoekmachines: dekking • > 15% van de webpagina’s in geen enkele van de grootste zoekmachines • van resterende wel geïndexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, Live 62% (http://www.cs.uiowa.edu/~asignori/web-size/) • dekking zeer ongelijkmatig • verschil in actualiteit
Zoekmachines: ontwikkeling • 1994 Webcrawler, Lycos, Alta Vista (10) • 1995 concurrentie Hotbot, Excite, Yahoo (50) • 1997 Northern Light, MSN, sterke groei web > 200 • 1999 opkomst Google en Alltheweb en crisis Infoseek, Northern Light, AV, Excite, ILSE o.a. (100) • 2002 komst Teoma, Wisenut, Gigablast (1000) • 2003 renaissance AV, glorietijd Google (3000) • 2004 consolidatie/concurrentie (4000): • Google+Blogger, verbreding: boeken, kritiek, beursgang • Overture+Alltheweb+AV+Yahoo, ontmanteling AV/ATW • Microsoft: introductie MSNsearch beta: zelf indexeren • 2005 verbreding/innovatie/content (5000-10000) • Samenwerking content providers-zoekmachines? • Teoma wordt Ask en opkomst Amazon met A9 • Doorgroei Gigablast (2000) • 2006-2007 puur zoeken raakt op achtergrond (20000-40000) • Live gelanceerd, YouTube gekocht • uploaden, web 2.0 • gemengde content (Google universal, iGoogle bv.) • specifieke diensten (Google CSE bv) • 2008 Google universal verder ingevoerd (>100000) • 2009 Nieuwe zoekmachine van Microsoft: Bing
Zoekmachines: wat vind je niet? • recente webpagina’s/wijzigingen • dynamisch gegenereerde pagina’s • informatie in databases • pagina’s met no robots file • pagina’s met toegangsrestricties • verdwenen pagina’s (maar: cache en Wayback Machine archive.org)
Zoekmachines: beperkingen Google • genest Booleaans zoeken > Bing/Exalead • backlinksindex vrij klein > Yahoo • zeer grote pagina’s soms niet volledig geïndexeerd > Yahoo • truncatie, nabijheids- en patroonzoeken > Exalead • daterange zoeken > Exalead/Alltheweb (maar periodes bij Google werken weer)
Land/taalversies Google Interfacetaal beinvloedt ook resultaat! Taalinstelling zoekactie voorkeuren of eenmalig Landsversie: beinvloedt ranking sterk ncr