90 likes | 242 Vues
sme.sk odpor účač e xperimenty & s k úsenosti. Ján Suchal o ntožúr 2010. Sme.sk odpor účač. Ak é články čítajú mne podobní ľudia a ja som nevidel ? veľa veľa dát (~1M pageviews denne ) ka ždú minútu nové (~1000) v e ľa veľa traffic (peak okolo 9 r áno )
E N D
sme.sk odporúčačexperimenty & skúsenosti Ján Suchal ontožúr 2010
Sme.sk odporúčač • Aké články čítajú mne podobní ľudiaa ja som nevidel? • veľa veľa dát (~1M pageviewsdenne) • každú minútu nové (~1000) • veľa veľa traffic (peak okolo 9 ráno) • rýchla odozva (horná hranica ~2-3 sekundy)
algoritmus • algoritmus k-najbližších susedov • fulltext search ako ho nepoznáte (tf-idfzadarmo!) • + implicitná negatívna spätná väzba • čo už videl, ale neklikol • + explicitná negatívna spätná väzba • toto nechcem už vidieť (x tlačítko)
Syntetické testovanie • 15-dňové logy • trénovacia / testovaciačasť • na koľko % z top10 klikol neskôr? • škálovateľnosť (voči velkosti okna)
Reálne TESTOVANIE ? • 2 odporúčače • “standard” • + implicitná negatívna spätná väzba • parameter veľkosti okolia • 5 až 50 s krokom 5 • = 20 skupín • 7 dní = 2.8M odporúčaní • čo merať? • počet klikov na “toto nechcem” • počet klikov na odporúčané články • pomer klikov na článok a klikovna“totonechcem” ? Signifikancia? Kruskal - Wallis test !
Nasadzovanie– príprava • rails, mysql, sphinx, passenger, cron, apache, debian • Virtuálny stroj od sme.sk • Monitorovanie výkonu (New Relic RPM) • záťaž, pamäť, pomalé akcie, databáza, dopyty, indexy... • Reportovanie chýb (Hoptoad + Redmine) • pošle mail keď nastane chyba, otvorí/upraví ticket... • Automatické nasadzovanie (capistrano) • stiahne novú verziu z repozitára, migrácie db, crontab, symlink, restart...
Nasadzovanie - Realita • Virtuálny stroj sme.sk>> nimbus.fiit.stuba.sk • Monitorovanie výkonu #win • Notifikácia chýb+ Redmine #fail • MySQL • pritabuľkách s>10M riadkov končí sranda • query planner je niekedysprostejší ako ja #fail • Automatické nasadzovanie #win • príkaz na vypnutieslužby (.htaccess redirect 400)
Spustenie 10%! • pondelok 8.11. • o 4 hodinyneskôr • don’t panic! • 1jadro + 2GB RAM => 4jadrá + 3GB RAM • hacky hack! • utorok 9.11. • streda 10.11 7:30am • mašina je mŕtva
OHLASY • etrend • twitter • diskusie sme.sk