1 / 9

12 . 5 .201 4

12 . 5 .201 4. Bibliometric-enhanced IR Workshop. Spájanie vyhľadávania s bibliometriou http://ceur-ws.org/Vol-1143 / Využitie citácií, kocitácií Kocitácia = ak sú 2 dokumenty citované nejakým iným dokumentom ISEARCH dataset Články z oblasti fyziky 143 571 full textov v PDF

carver
Télécharger la présentation

12 . 5 .201 4

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 12.5.2014

  2. Bibliometric-enhancedIR Workshop • Spájanie vyhľadávania s bibliometriou • http://ceur-ws.org/Vol-1143/ • Využitie citácií, kocitácií • Kocitácia = ak sú 2 dokumenty citované nejakým iným dokumentom • ISEARCH dataset • Články z oblasti fyziky • 143 571 full textov v PDF • 3,7 milióna extrahovaných citácií • 65 tém (úloh vyhľadávania = čo hľadal, úloha, ideálna odpoveď, ...) a ohodnotenie ich relevancie • Riedke kocitácie

  3. DesigningSearchUsabilityTutorial • Tony Russell-Rose • http://isquared.wordpress.com/2014/04/01/designing-search-usability-tutorial-at-ecir-2014/#more-1939 • Tvorba dopytu, zobrazovanie výsledkov • Fazetové vyhľadávanie • Pri dobrom návrhu by sme nikdy nemali dostať 0 výsledkov • Sú ale 3 situácie, kedy sa tomu nedá vyhnúť

  4. Catena, Macdonald, Ounis: On Inverted Index Compression for Search Engine Efficiency • Best paperaward • Rôzne kodeky a ich vplyv na rýchlosť odozvy • Vint, Simple16, FOR, PForDelta, NewPFD, OptPFD, FastPFOR • Kompresia rôznych polí • ID dokumentov, frekvencie termov, frekvencie polí, pozície • Najlepší FOR (Frame of Reference) • Dobrá kombinácia kompresie • Okolo 30% zrýchlenie voči baselinupri zväčšní indexu o 10%

  5. RealtimeSearch at Twitter • GiladMishne • Viacero indexov • Aktuálne tweety (cca. 1 týždeň) ~ 4 mldr. tweetov • Archív – RAM a SSD • Tweet nemá len 140 znakov • Pridanie 1 integeru do tweetu • 4B • 400 mldr. Tweetov, 10 replík • 4TB pamäte

  6. RealtimeSearch at Twitter • M&M testovanie • cr@p3

  7. ...ďalší • Seznam.cz • Yandex • Yahoo! Labs (Peter Mika)

  8. ECIR 2015

More Related