1 / 35

Sémantické vyhľadávanie A sémantick É sietE

Sémantické vyhľadávanie A sémantick É sietE. RNDr. Michal Laclavík, PhD. Podpora přednášky kurzu Teoretické aspekty umělé inteligence KA 16. Primary Research Team & Capabilities. URL: http://ikt.ui.sav.sk. Director & leader of PDC: Dr. Ladislav Hluch ý.

Télécharger la présentation

Sémantické vyhľadávanie A sémantick É sietE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sémantické vyhľadávanie A sémantickÉsietE • RNDr. Michal Laclavík, PhD. Podpora přednášky kurzu Teoretické aspekty umělé inteligence KA 16

  2. Primary Research Team & Capabilities URL: http://ikt.ui.sav.sk Director & leader of PDC: Dr. Ladislav Hluchý Dept. of Parallel and Distributed Computing Research and Development Areas: • Large-scale HPCN, Grid and MapReduce applications • Intelligent and Knowledge oriented Technologies Experience from IST: • 3 project in FP5: ANFAS, CrosGRID, Pellucid • 6 project in FP6: EGEE II, K-Wf Grid, DEGREE (coordinator),EGEE, int.eu.grid, MEDIGRID • 4 projects in FP7: Commius, Admire, Secricom, EGEE III Several National Projects (SPVV, VEGA, APVT) IKT Group Focus: • Information Processing (Large Scale) • Graph Processing • Information Extraction and Retrieval • Semantic Web • Knowledge oriented Technologies • Parallel and Distributed Information Processing Solutions: • SGDB: Simple Graph Database • gSemSearch: Graph based Semantic Search • Ontea: Pattern-based Semantic Annotation • ACoMA: KM tool in Email • EMBET: Recommendation System • Experts on MapReduce and IR (Nutch, Solr, Lucene) Hradec Králové

  3. Obsah Podčiarknuté sú metódy vyvíjané na ÚI SAV • Google KnowledgeGraph • Facebook GraphSearch • SemSets • Sémantické siete • gSemSearch • IBM Watson • Extrakcia informácií Hradec Králové

  4. Google KnowledgeGraph [ulanoff] • Wikipedia • Freebase • Confirmedhumanknowledge Hradec Králové

  5. Facebook GraphSearch [facebook13] • Užívateľmi generovaný obsah • Prepojenia na web Hradec Králové

  6. SémantickévyhľadávanieSemSets [SemSets] • Odpovede na otázky typu zoznam: astronauts who walked on the Moon • Wikipédia ako text aj graf • Text: usporiadanie pomocou lucene • Graf/sieť: šírenie aktivácie a SemSets • Víťazné riešenie na SemanticSearchChallenge Eugene_Cernan Alan_Bean David_Scott John_Young_(astronaut) Neil_Armstrong Pete_Conrad Harrison_Schmitt Alan_Shepard Charles_Duke Buzz_Aldrin James_Irwin Edgar_Mitchell Hradec Králové

  7. Objavovanie vzťahov vo veľkých grafových dátach • Motivácia • Grafy a siete sú všadeprítomné : sociálne site, web, LinkedData, transakcie, komunikácia (email, telefóny). • Text tiež môže byť prevedený na graf. • Prepojenie grafových dát a vyhľadávania relácii v nich je dôležite • Prístup • Tvorba sémantických stromov a grafov z textu, webu, komunikácie, databáz a LinkedData • Užívateľská interakcia s týmito dátami aby sa dali lepšie integrovať zdroje a vyčistiť upraviť dáta • Užívatelia to budú robiť ak to bude mať zmysel, teda okamžitý vplyv na lepšie výsledky vyhľadávania Hradec Králové

  8. Sémantické siete • Sociálne siete: priatelia a iné artefakty ako správy, statusy, fotky a podobne. • Emaily: sociálna sieť + iné objekty ako firmy, organizácie, dokumenty, linky, čas a podobne. • Telekomunikácie: sieť navzájom komunikujúcich ľudí - hovory, SMS s ďalšími metadátami ako čas alebo miesto. • Internet: sieť odkazov a prepojení. • Wikipédia: sieť prepojení a hierarchie jednotlivých tematických stránok ako aj jazykových mutácií • LinkedData Hradec Králové

  9. Náhodná sieť a sieť s mocninovou distribúciou Sieť s mocninovoudist. stuňov Sieť s binomickou dist. stuňov [Slide borrowed from Marek Ciglan] Zdroj: http://geza.kzoo.edu/bionet/html/scalefree.html Hradec Králové

  10. Siete malého sveta [Slide borrowed from Marek Ciglan] • Siete malého sveta často obsahujú kliky, alebo „skoro kliky“ • Efekt „moji priatelia v sociálnej sieti sú často priatelia navzájom“ • Matematicky to možno zachytiť pomocou zhlukovacieho koeficientu • Lokálny zhlukovací koeficient: Zdroj: http://en.wikipedia.org/wiki/Clustering_coefficient Hradec Králové

  11. Vlastností vybraných grafov/sietí • Datasety: • DBPedia • Web • BBC, LinkedIn, DSK • Gorila – document • Events – agent simulation event graph • ACM – publications, LinkedData Hradec Králové

  12. Extrakciaentít, stromy a siete • Information Extraction (Entity identification) • We have used Ontea, but other tools like GATE or Stanford NER can be used • Ontea advantage – forming entity trees • Trees • Graphs/Networks Hradec Králové

  13. Ontea: Nástroj na extrakciu informácií [ontea_email]. • Regulárne výrazy (vzory) • Gazetteers (Slovníky) • Výsledky - Anotácie • Key-value páry • Sémantické stromy • Grafy a siete • Transformácie, Konfigurácia • Automatické načítanie extraktorov • Visuálny nástroj na anotáciu • Integrácia s inými technológiami • GATE, Stanford NER, Hadoop … • Testy s rôznymi jazykmi • Angličtina, Slovenčina, Španielčina, Taliančina http://ontea.sf.net Hradec Králové

  14. gSemSearch: objavovanie relácií v grafoch a sieťach [gSemSearch] • Vylepšené vyhľadávanie relácií v sémantických grafoch • Škálovateľnosť • Nasmerované na prepojenie • štruktúrovaných (Relačné dáta, LinkedData) • neštruktúrovaných dát (text, dokumenty, komunikácia) Hradec Králové

  15. Navigácia v zjednodušenom LinkedData grafe • Konverzia ACM LinkedData na jednoduchý graf pre gSemSearch • Experiment na hľadanie relácií a navigáciu • Pri konverzii na jednoduchší graf zanedbanie typov vzťahov: niekedy problém Hradec Králové

  16. Teória grafov: šírenie aktivácie public Map<Result,Double> relatedBreadthFirst(Set<Entity> startNodes) { Map<Result,Double> rM = newHashMap<Result, Double>(); LinkedList<Entity> rLL = newLinkedList<Entity>(); int count = visitNodeCount; intsizeInit = startNodes.size(); for (Entity start : startNodes) { rLL.addLast(start); rM.put(start, (double) count/ (double) sizeInit); } while (!rLL.isEmpty() && count >= 0) { Entity r = rLL.removeFirst(); visited.add(r); intnCount = g.getNeighborCount(r); double v = rM.get(r)/(double)nCount; if (v < threshold) continue; if (nCount<=count) { Collection<Entity> rC = g.getNeighbors(r); for (Entity entity : rC) { if (!visited.contains(entity)) { rLL.addLast(entity); } visited.add(entity); doubleval = v; if (rM.containsKey(entity)) val += rM.get(entity); rM.put(entity, val); } count -=nCount; } } return rM; } • Fast algorithm • Takes graph topology into account • Breadth First • Ends after it visit certain number of nodes (set to 10,000 experimentally) Hradec Králové

  17. SGDB: Simple Graph Database • Úložisko pre grafové štruktúry • Optimalizované na traverzovanie grafu • Pri traverzovaní rýchlejšie ako Neo4j • Podpora Blueprints API • https://simplegdb.svn.sourceforge.net/svnroot/simplegdb/Sgdb3 • Graph Database Benchmark • Benchmark pre operácie traverzovania v grafe • http://ups.savba.sk/~marek/gbench.html • Blueprints API – Možnosť testovať databázy ktoré podporujú toto API [gBench] Hradec Králové

  18. Spracovanie rozsiahlych textových a grafových dát • Technológie • Sťahovanie dát • Nutch + plugins • Indexovanie a fultextové vyhľadávanie • lucene, Sorl • Extrakcia informácií • Ontea, GATE • Všetky vyššie uvedené na rozsiahlych dátach • Hadoop, S4 • Spracovanie a dopytovanie grafových dát • SimpleGraphDatabase (SGDB) • gSemSearch • Neo4j • Blueprints [uiWeb] Podčiarknuté sú technológie vyvíjané ÚISAV Hradec Králové

  19. [Perrone11] IBM Watson Hradec Králové

  20. IBM Watson [Perrone11] Hradec Králové

  21. IBM Watson [Perrone11] Hradec Králové

  22. MachineLearning a Dáta (trénovacie) • Log súbory (užívatelia) • Wikipédia, DBPedia (111 languages) • Tags (YouTube, Delicious .....) • LinkedData [Zaragoza] Hradec Králové

  23. Information Extraction: OpenNLP • NLP úlohy • tokenization • sentence segmentation • part-of-speech tagging • named entity extraction • Chunking • Parsing • coreference resolution • MachineLearning Models • maximálnaentropia (maximum entropy) • model perceptrónu [TamingText, OpenNLP] • Experimenty • http://vi.ikt.ui.sav.sk/ • Extrakcia mien osôb • Lokalít • Rozpoznávanie viet SK • Rozpoznávanie viet EN Hradec Králové

  24. Information Extraction: Features [Nigam] begins-with-number begins-with-ordinal begins-with-punctuation begins-with-question-word begins-with-subject blank contains-alphanum contains-bracketed-number contains-http contains-non-space contains-number contains-pipe Is Capitalized Is Mixed Caps Is All Caps Initial Cap Contains Digit All lowercase Is Initial Punctuation Period Comma Apostrophe Dash Preceded by HTML tag Character n-gram classifier says string is a person name (80% accurate) In stopword list(the, of, their, etc) In honorific list(Mr, Mrs, Dr, Sen, etc) In person suffix list(Jr, Sr, PhD, etc) In name particle list (de, la, van, der, etc) In Census lastname list;segmented by P(name) In Census firstname list;segmented by P(name) In locations lists(states, cities, countries) In company name list(“J. C. Penny”) In list of company suffixes(Inc, & Associates, Foundation) contains-question-mark contains-question-word ends-with-question-mark first-alpha-is-capitalized indented indented-1-to-4 indented-5-to-10 more-than-one-third-space only-punctuation prev-is-blank prev-begins-with-ordinal shorter-than-30 • Example word features: • identity of word • is in all caps • ends in “-ski” • is part of a noun phrase • is in a list of city names • is under node X in WordNet or Cyc • is in bold font • is in hyperlink anchor • features of past & future • last person name was female • next two words are “and Associates” Word Features • lists of job titles, • Lists of prefixes • Lists of suffixes • 350 informative phrases HTML/Formatting Features • {begin, end, in} x {<b>, <i>, <a>, <hN>} x{lengths 1, 2, 3, 4, or longer} • {begin, end} of line Hradec Králové

  25. Pokusy s Machine Learning naÚI SAV • Extrakcia pomocou jednoduchých regulárnych výrazov • Krsne_meno Priezvisko • Ing. Meno Priezvisko • Best regards, Meno … • Ulica CISLO, PSC Meno_Mesta • Hocičo s veľkými písmenami (type-less entity) • Tieto metódy fungujú ale nie vždy • Človek nevie dobre nadefinovať pravidlá • Ak mám trénovacie dáta ML môže povedať kedy ktoré funguje • Trénovacie dáta z user interaction • Delete, annotate, change type Hradec Králové

  26. MSM 2013 Challenge Annotowatch Š. Dlugolinský, P. Krammer, M. Ciglan, M. Laclavík http://oak.dcs.shef.ac.uk/msm2013/challenge.html Hradec Králové

  27. Used Named Entity Recognition (NER) tools • ANNIE (GATE) • Apache OpenNLP • Illinois NER • Illinois Wikifier • LingPipe • Open Calais • Stanford NER • WikiMiner • Miscinator* Most of these tools are intended to be used rather on a relatively long news-like texts than on microposts • our specialized tool designed to detect entities of the MISC type, as defined in MSM’13 challenge; that is entertainment/award event, sports event, movies, TV shows, political event or programming languages ; uses Google Sets Hradec Králové

  28. Average Performance of all tools* Some of the tools are more suitable on different entity type. It can be seen on different performances for LOC and MISC for example. Different tools produce diverse results, which when combined bring higher recall than the best tool individually. • on MSM’13 training dataset v1.5 Hradec Králové

  29. Features for machine learning • Example of method features vector computation for MISC annotation: Hradec Králové

  30. Sample part of generated prunned tree ... ... IllinoisNER.MISC.AScore.aiir <= 0.7273 ... | ApacheOpenNLP.ORG.AScore.aiir <= 0.2059 ... | | Wikiminer.MISC.AScore.ail <= 16 ... | | | Ann.type = LOC ... | | | | LingPipe.LOC.AScore.aiir <= 0.5882: LOC (21.0/1.0) ... | | | | LingPipe.LOC.AScore.aiir > 0.5882: NULL (371.0/11.0) ... | | | Ann.type = MISC ... | | | | Wikiminer.MISC.AScore.aiir <= 0.5172 ... | | | | | IllinoisWikifier.MISC.AScore.aiia <= 0.5: MISC (22.0) ... | | | | | IllinoisWikifier.MISC.AScore.aiia > 0.5: NULL (95.0/5.0) ... | | | | Wikiminer.MISC.AScore.aiir > 0.5172: NULL (682.0/12.0) ... | | | Ann.type = NP: NULL (7624.0/83.0) ... | | | Ann.type = ORG Hradec Králové

  31. Annotations found in sample tweet by all tools” 2,000 fetuses found hidden at Thai Buddhist temple _URL_ via _Mention_” Hradec Králové

  32. MSM 2013 Challenge Annotowatch Naše riešenie Annotowatch je v prvých 6 najlepších riešeniach zo 17 tímov ktoré súťažili v MSM 2013 challenge http://oak.dcs.shef.ac.uk/msm2013/challenge.html Hradec Králové

  33. Záver • Sémantické siete zo štruktúrovaných a neštruktúrovaných dát • Majú zaujímavé vlastnosti • Možnosť optimalizácie grafových algoritmov a infraštruktúry • Sémantické vyhľadávanie v sémantických sieťach • Používateľ vyhľadáva, interaguje, opravuje a teda generuje trénovaciu množinu • Techniky strojového učenia na vylepšenie modelu sietí z neštruktúrovaných dát ako aj vyhľadávania Hradec Králové

  34. Literatúra • [Ulanoff] Lance Ulanoff: Google Knowledge Graph Could Change Search Forever http://mashable.com/2012/02/13/google-knowledge-graph-change-search/, 2012 • [facebook13] Sean Gallagher, Knowing the score: How Facebook’s Graph Search knows what you want, http://arstechnica.com/information-technology/2013/03/knowing-the-score-how-facebooks-graph-search-knows-what-you-want/, 2013 • [Perrone11] Michael Perrone: What is Watson – An Overview, 2011, http://static.usenix.org/event/lisa11/tech/slides/perrone.pdf • [WatsonJr] Tony Pearson: IBM Watson - How to build your own "Watson Jr." in your basement, 2012, https://www.ibm.com/developerworks/mydeveloperworks/blogs/InsideSystemStorage/entry/ibm_watson_how_to_build_your_own_watson_jr_in_your_basement7?lang=en • [OpenNLP] OpenNLP: http://www.slideshare.net/gagan1667/opennlp-demo • [TamingText] Ingersoll, G., Morton, T., & Farris, L. (2012). Taming Text: How to find, organize and manipulate it. • [Zaragoza] Hugo Zaragoza. MachineLearningandInformationRetrieval, ESSIR 2009 Lecture • [Nigam] Kamal Nigam: Generative Models for Text Classification and Information Extraction, http://www.cs.cmu.edu/~knigam/15-505/ie-lecture.ppt Hradec Králové

  35. Literatúra • [SemSets] CIGLAN, Marek - NoRVaG, Kjetil - HLUCHÝ, Ladislav. The SenSets model for ad-hoc semantic list search. In WWW´12 Proceedings of the 21st International Conference on World Wide Web. - New York : ACM, 2012, p. 131-140. ISBN 978-1-4503-1229-5. SCOPUS, http://www2012.wwwconference.org/proceedings/proceedings/p131.pdf • [gSemSearch] LACLAVÍK, Michal - DLUGOLINSKÝ, Štefan - ŠELENG, Martin - CIGLAN, Marek - HLUCHÝ, Ladislav. Emails as graph: relation discovery in email archive. In WWW´12 Companion Proceedings of the 21st International Conference companion on World Wide Web. - New York : ACM, 2012, 841-846. ISBN 978-1-4503-1230-1. http://www2012.wwwconference.org/proceedings/companion/p841.pdf . SCOPUS • [gBench] CIGLAN, Marek - AVERBUCH, Alex - HLUCHÝ, Ladislav. Benchmarking traversal operations over graph databases. In 2012 IEEE 28th International Conference on Data Engineering Workshops : proceedings. - Los Alamitos : IEEE Computer Society, 2012, p. 186-189. ISBN 978-1-4673-1640-8. SCOPUS • [ontea_email] LACLAVÍK, Michal - DLUGOLINSKÝ, Štefan - ŠELENG, Martin - KVASSAY, Marcel - GATIAL, Emil - BALOGH, Zoltán - HLUCHÝ, Ladislav. Email analysis and information extraction for enterprise benefit. In Computing and informatics, 2011, vol. 30, no. 1, p. 57-87. (0.356 - IF2010). ISSN 0232-0274. • [uiWeb] Dlugolinský, Štefan - Šeleng, Martin - Laclavík, Michal - Hluchý, Ladislav. Distributed Web-scale Infrastructure for Crawling, Indexing and Search with Semantic Support. In Computer Science Journal, 13 (4) Hradec Králové

More Related