200 likes | 339 Vues
Analýza chování návštěvníků na webu W eb Usage Mining , Clickstream Analysis , Web Analytics. Tom áš Kliegr. Osnova. Definice Sběr dat Předzpracování JS tracker Google Analytics. Definice.
E N D
Analýza chování návštěvníků na webuWeb Usage Mining, Clickstream Analysis, Web Analytics Tomáš Kliegr
Osnova • Definice • Sběr dat • Předzpracování • JS trackerGoogleAnalytics
Definice • Clickstream analysis: proces sběru, analýzy a reportování agregátních dat o tom, jaké stránky si návštěvníci zobrazují a v jakém pořadí • Web UsageMining (přibližně): clickstream analýza jako vědecká disciplína • Web Analytics (přibližně): clickstream analýza v praxi
Cíle clickstream analýzy • Úlohy clickstream analýzy se obvykle rozdělují na: • Analýzu provozu (trafficanalysis) • Cesty návštěvníků po webu • Důraz na typické chování návštěvníků • E-Commerce analýzu • Určení efektivity prodeje • Důraz na referrery (odkud návštěvník přišel?) a konverze (koupil něco?)
Způsoby sběru dat • Log webového serveru • Proxy servery • TCP/IP packet sniffer • Příliš složité v praxi (facca?) • Javascripttracker • Klientská aplikace (toolbar) • Každý z uvedených způsobů má své klady a zápory • Vhodné kombinovat
Log webového serveru • Webové servery (IIS, Apache) lze nastavit tak, aby vytvářely záznamy o požadavcích na ně učiněných • Historicky zřejmě nejstarší způsob • Dnes problémy s přesností
Příklad položek logu • REMOTE HOST IP • REMOTE HOST LOGIN NAME • AUTH Login • DATE • REQUEST - přesné znění příkazu zaslaného webovému serveru • WEB SERVER’s RETURN CODE • SIZE OF RETURNED FILE • REFERRER– URL stránky, která na požadovaný resource odkazovala • USER AGENT
Proxy Servery • Možnost získat data o provozu na vícero webech • Nejkomplexnější data • Zaznamená i požadavky, které na webový server vůbec nedorazí (jsou obslouženy proxy) • Data z proxy serverů se dají koupit, nebo je možné je získat provozem vlastního proxy serveru • Google Web Accelarator: ”’..we may use log information about Google Web Accelerator usage to improve the quality of Google Web Accelerator and other Google services.“ • Obvykle ale přístup k datům z dostatečně reprezentativního proxy serveru není k dispozici
JavascriptTracker Příklad realizace javascripttrackeru (serverová část na MS technologii)
Klientská aplikace • Java Applet (Shababi) • Pomocí eyetrackeru lze např. studovat souvislost mezi pořadím linku ve výsledcích a pozorností, kterou získá. • Míra pozornosti která se dostává linkům na 1. a 2. pozici je téměř stejná (Granka) – obr. ukazuje počet výsledků pod a nad vybraným dokumentem, který návštěvníci skenují
JavascriptTracker detailně • Viz případová studie
Předzpracování získaných dat • Liší se v závislosti od datového zdroje • Náročná je kvalitní příprava dat z log souborů • Pomocí Javascriptu to lze snadno
Předzpracování log souboru (Reichle et al)
Předzpracování log souboru • Vynechání požadavků na obrázky • Analýza refereru • URL Encoding se používá pro zakódování speciálních znaků v URL – obvzlášť důležité v češtině • Rozpoznání relací – existuje řada heuristik • Např. stejná zdrojová IP adresa a časový interval mezi dvěma požadavky max. 20 min. • Jedno ze slabých míst log souborů • Identifikace robotů – lze dosáhnout cca 90% spolehlivost (Geens) • Seznamy user-agentů, IP adres, požadavek HEAD místo GET • Typicky nestahují obrázky a mají prázdná referrer • Případně zpracování cookies, které mohou být v log souboru též uvedeny
Srovnání Javascript (PageTagging) Analýzalogů Bez problémů s proxy a cachemi Trackuje klient-side události (Javascript, Flash, Web 2.0) Klientské zachycení E-commerce dat Sběr dat v reálném čase Outsourcované aktualizace softwaru Efektivní ukládání dat, které může být snadno outsourcováno Znovupoužití historických dat Bez problémů s Firewally Lze sledovat bandwidth a dokončené downloady Automaticky sleduje spidery a roboty Automatickysleduje návštěvníky z mobilních zařízení Transparentnost pro návštěvníka Nepřesnosti spojené s proxy a cachováním Nelze sledovat události (js, Flash,W 2.0) Obecně složitější aktualizace a data storage Neefektivní datový formát Možné problémy v případě, že je použit přepis adres (ISAPI filtern. mod_rewrite) Špatné nastavení vede ke ztrátě dat Firewally mohou omezit použití tagů Výsledek měření je závislý na umístění tracking codu (začátek/konec body sekce) Nelze trackovatspidery Upraveno dle Web analyticswhitepape, Advanced-web-metrics.com
Kdy javascripttracker nemusí fungovat správně • Prohlížeč nepodporuje cookies, podpora cookie je vypnuta nebo omezena na cookie prvních stran. • Prohlížeč nestahuje obrázky • Prohlížeč nepodporuje javascript • Prohlížeč blokuje konkrétní scripty (adblocker) • Reálným problémem je především podpora cookies • http://www.webtrends.com/AboutWebTrends/NewsRoom/NewsRoomArchive/2005/CookieRejection.aspx
Přehled komerčních řešení • Špička • Omniture • Clicktracks • Webtrends • „Contender“ • Google Analytics • Jednoduché srovnání viz: web-data-sources.pdf • Aktualizovaná srovnání produktů v ForrestWave (r) – Web Analytics
Případová studie: Google AnalyticsINterceptor • Rozšíření Google Analytics, které umí zasílat data jak na lokální server tak i na vzdálený • Využívá možnosti placené verze Urchin, která umožňuje logovat požadavky i pomocí lokálního log souboru (vyšší přesnost) Google Analytics INterpceptor Google Analytics
Vložení trackovacího kódu • <scriptsrc="http://www.google-analytics.com/urchin.js" • type="text/javascript"></script> • <script type="text/javascript"> • _ugifpath="http://www.example.cz/trackicon.aspx"; • _userv=2; • _uacct = "UA-135959-5"; • _udn="none"; • _ulink=1; • urchinTracker(); • </script> Upozornění: stará verze GA
Mechanizmus předávání kliknutí z javascriptu na sledovácí server • if ((_userv==0 || _userv==2) && _uSP()) { • i[ii]=new Image(1,1); • i[ii].src=_ugifpath+"?"+"utmwv="+_uwv+s; • i[ii].onload=function() { _uVoid(); } • } • if ((_userv==1 || _userv==2) && _uSP()) { • i2[ii]=new Image(1,1); • i2[ii].src=_ugifpath2+"?"+"utmwv="+_uwv+s+"&utmac="+_uacct+"&utmcc="+c; • i2[ii].onload=function() { _uVoid(); } • } _ugifpath = http://www.google-analytics.com/_utm.gif Upozornění: stará verze GA