1 / 7

Extrakcia časových údajov z emailov

Extrakcia časových údajov z emailov. Rastislav Masaryk. Popis projektu. Extrakcia časových údajov zo správ písaných ľuďmi Rôzne vyjadrenia dátumu a času Vytváranie párov dátum - čas. Prehľad existujúcich riešení. Nenašiel som projekt, ktorý by niečo podobné riešil pre slovenský jazyk

maik
Télécharger la présentation

Extrakcia časových údajov z emailov

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extrakcia časových údajov z emailov Rastislav Masaryk

  2. Popis projektu • Extrakcia časových údajov zo správ písaných ľuďmi • Rôzne vyjadrenia dátumu a času • Vytváranie párov dátum - čas

  3. Prehľad existujúcich riešení • Nenašiel som projekt, ktorý by niečo podobné riešil pre slovenský jazyk • Podpora jednoduchého parsovania dátumov je už aj vo vyšších programovacích jazykoch • Datejs – JavaScript knižnica na uľahčenie práce s dátumami a časmi • Moduly pre PythonPython-dateutil a Parsedatetime • Chronic – parser dátumových a časových údajov napísaný v Ruby

  4. Popis riešenia • Program sa púšťa cez konzolu. Prvým jeho parametrom je súbor s emailovou správou (*.eml) a druhým (nepovinným) parametrom je slovo, ktoré musí email obsahovať aby bol ďalej spracúvaný • Program je zložený z dvoch častí (Java + C), ktoré sú prepojené cez pipu

  5. Popis riešenia • Časť v Jave slúži na získanie informácií z hlavičky emailu a na konverziu tela emailu do jednotného kódovania • Časť v C rieši vyhľadávanie časových údajov v tele emailovej správy • Vyhľadávam najskôr dátum, ku ktorému sa potom snažím nájsť a priradiť časový údaj • Priradím čas, ktorý je k danému dátumu najbližšie (na počet znakov)

  6. Popis riešenia • 4 algoritmy na vyhľadávanie dátumu • Sú postavené na regulárnych výrazoch • Údaje ako zajtra, pozajtra, včera... • Pondelok, utorok, streda... • Štandardný zápis dátumu (napr. 23.11.2009) • Vyjadrenie mesiacu slovne (napr. 3. Január 2009) • 1 algoritmus na vyhľadanie času

  7. Vyhodnotenie • Testovacie dáta: 32 emailových správ • R – 71 informácií o dátume a čase • I – program vyhodnotil 66 dvojíc dátum – čas • RI – z toho 44 bolo správnych • Presnosť = 44 / 66 = 66,6% • Pokrytie = 44 / 71 = 62%

More Related