110 likes | 295 Vues
Extrakcia lokalít pomocou systému Ontea. Záverečná prezentácia semestrálnej práce. Bc.Vladimír Janov. Obsah prezentácie. Probl ém a motivácia Existujúce riešenia Postup práce pri riešení Ukážka Vyhodnotenie. Probl ém a motivácia. Problém Exktrakcia geografických údajov z bázy údajov
E N D
Extrakcia lokalít pomocou systému Ontea Záverečná prezentácia semestrálnej práce Bc.Vladimír Janov
Obsah prezentácie • Problém a motivácia • Existujúce riešenia • Postup práce pri riešení • Ukážka • Vyhodnotenie
Problém a motivácia • Problém • Exktrakcia geografických údajov z bázy údajov • Častí miest • Mestá • Śtáty • Kontinenty • Používateľské rozhranie • Výsledky • Báza údajov • Motivácia • prispenie k existujúcim softvérom v tejto doméne • praktické aplikovanie vedomostí z predmetu
Existujúce riešenia • GATE (http://gate.ac.uk/) • vyvinutý v roku 1995 • líder v oblasti TextMining • plugin do IDE Eclipse • open source s GUI Výhody • Opakovateľnosť – zjednodušenie opakovania porovnateľných experimentov • Kvantitatívne vyhodnocovanie –porovnáva anotované dáta dokumentov a generuje kvantitatívne metriky • Kolaborácia – podľa informáciách na stránke, GATE v tejto oblasti prevyšuje priemernú softvérovú integráciu a prenositeľnosť. • Znovupoužíteľnost, nie znovuvynachádzanie
Existujúce riešenia • ONTEA (http://ontea.sourceforge.net/) • Platforma pre sémantickú anotáciu založenú na vzorkách (patterns) • Vyvinutá v slovenskej akadémii vied (SAV) • Ľahká integrácia v reálnom projekte JAVA • Pracovanie s regulárnymi výrazmi • Nie je potrebná žiadna inštalácia • Zdrojový kód na sourceforge.net
Riešenie Popis riešenia • JAVA projekt • E-maily vo formáte Mbox (mozilla thunderbird) • Algoritmus • Načítanie a rozparsovanie Mbox súboru na jednotlié maily • Odfiltrovanie nepotrebných častí • Aplikovanie ONTEA anotovacej metódy s použitím regulárnych výrazov na konkríétne telo e-mailu, poi klinutí na jeho predmet v GUI • Výsledky sa používateľoivi zobrazia v GUI • Po kliknutí na výsledok sa jeho výskyt zvýrazní v tele emailu • Po dvojnásobnom kliknutí na výsledok sa daná lokalita zobrazí v GoogleMaps
Riešenie Popis riešenia • JAVA projekt s nasledujúcimi triedami • App • Application.java – hlavný vstupný bod do aplikácie (main) • Backup • MainFrame.java – trieda obsahujúca GUI pre zobrazenie okien v aplikácii • Data – package obsahujúci konkrétnu logiku riešenia • MboxAnnotations.java – metódy pre samotnú anotáciu výsledkov a následné vyfiltrovanie správnej hodnoty • MboxFileParser.java – prvotné rozparsovanie jednotlivých emailov a následné parsovanie predmetu a tela emailu • MboxFilter.java – slúži na vyfiltrovanie nepotrebných častí emailu • MboxMail.java – trieda na zápis predmetu a tela e-mailu • Gui – automaticky vygenerovaný balík pomocou Eclipse
Riešenie Práce na projekte • Analýza problému – naštudovanie si API • Implementácia – vytvorenie súboru Mbox, návrh GUI, implementácia logiky • Overenie a ošetrenie chýb
Vyhodnotenie • Množina I (množina získaných dokumentov) je rovný počtu geografických názvov v e-mailoch uložených v súbore vi_mail. E-mailov je 17 a relevantnýchnázvov je spolu 39. Množina R (množina relevantných dokumentov) obsahuje po manuálnej analýze množiny získaných e-mailových správ 37 geografických názvov. Množina RI (množina relevantných získaných dokumentov) je 33.
Vyhodnotenie • Presnosť • Výška presnosti vyhľadávania geografických názvov v e-maloch pri množine získaných dokumentov je 84,6%. • P = RI/I = 33/39 = 0,846 • Pokrytie • Výška pokrytia pre množinu relevantných dokumentov je 89,1%. • R = RI/R = 33 / 37 = 0,891 • F1 štatistika • Táto štatistika vykazuje úspešnosť 86,9%. • F1 = 2 / (1/R + 1/P) = 2 / (1,12 + 1,18) = 0,869.