1 / 13

Avtonomen sistem za združevanje podatkovnih omrežij

Avtonomen sistem za združevanje podatkovnih omrežij. Tomaž Kuralt. Motivacija. Uvrstitev problema. Razločevanje entitet Uporaba različnih metrik Atributne metrike Relacijske metrike Težave obstoječih pristopov Dvoumnost Utežitev metrik Nastavitev meje podobnosti. Sistem.

blaine
Télécharger la présentation

Avtonomen sistem za združevanje podatkovnih omrežij

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Avtonomen sistem za združevanje podatkovnih omrežij Tomaž Kuralt

  2. Motivacija

  3. Uvrstitev problema • Razločevanje entitet • Uporaba različnihmetrik • Atributne metrike • Relacijske metrike • Težave obstoječih pristopov • Dvoumnost • Utežitev metrik • Nastavitev meje podobnosti

  4. Sistem

  5. Predprocesiranje • Izračun statistik iz podanega nabora podatkov • Nastavitev potrebnih parametrov • Ocena dvoumnosti • Utežitev atributov • Izbira atributa za Grupiranje

  6. Grupiranje • Zmanjšanje časovne zahtevnosti • Reference razvrstimo v skupine • Nadaljna primerjava le med pari, ki so znotraj istih skupin

  7. Vzpostavitev začetnega stanja • Omrežja so nepovezana • Vzpostavimo začetno stanje povezanega omrežja • Enostavna shema • Relacijska shema

  8. Iterativno združevanje • Podana omrežja zlivamo v eno omrežje • Algoritem: • Poiščemo vse pare podobnih referenc • Izračunamo njihovo podobnostno vrednost: • Ponavljamo: • Obravnamo par z največjo sim(ci,cj) • Če presodimo, da predstavljata isto entiteto ju združimo • Posodobimo sim(ci,cj) ostalim parom

  9. Izdelava napovedi • Uporaba klasifikacije za izdelavo napovedi o združitvi • Vektor: [d1,d2,d3...,f1,f2,f3...,L] • Odločitve metrik • Kontekstualne lastnosti • Dvoumnost • Dolžina geodetke • ...

  10. Rezultati – realni podatki • Facebook & Twitter • F1=0,835 (s=0,139) • CiteSeer • F1=0,896 (s=0,011)

  11. Rezultati – sintetični podatki • Kakovost združevanja v odvisnosti od šuma • Kakovost združevanja v odvisnosti od strukturne podobnosti

  12. Sklep • Zadovoljni z rezultati • Pazljivost pri interpretaciji rezultatov • Možne izboljšave in razširitve sistema • Izgradnja več klasifikatorjev • Prevedba omrežij na skupno sintakso • Predstavitev resnične entitete v rezultatu

  13. Hvala za pozornost

More Related