Text ové Datab á zy

Textové Databázy Ján GENČI PDT

Obsah • Literatúra • Terminológia • Vymedzenie pojmu textové databázy • Typy dotazov • Fulltextové vyhľadávanie • Lingvistické korpusy

Literatúra • Pokorný J.: Databázové systémy 2, Nakladatelství ČVUT, 2007 • Pokorný J., Snášel V., Kopecký M.: Dokumentografické informačné systémy, Nakladatelství Karolinum, 2005. • Laura C. Rivero, Jorge H. Doorn, Viviana E. Ferraggine: Encyclopedia Of Database Technologies And Applications. Idea Group Publishing, 2005 (heslo Text Databases, p. 688) • Erickson J.: Database Technologies:Concepts,Methodologies,Tools, and Applications. IGI Global, 2009. ISBN 978-1-60566-058-5 (pp. 931-939)

Literatúra (cont.-1)

Literatúra (cont.-2) • Oracle Text. http://www.oracle.com/technology/products/text/index.html • Oracle Text. An Oracle Technical White Paper. June, 2007 (prečítať) http://www.oracle.com/technology/products/text/pdf/11goracletexttwp.pdf

TXT DB – Terminológia • Information retrieval • Textové databázy (informačné systémy) • Dokumentové databázy (Document databases) • Dokumentografické informačné systémy

Definícia • Text je akákoľvek postupnosť symbolov z nejakej abecedy. • Veľká časť informácií dostupných v elektronickej podobe je práve v textovej forme : • Text prirodzeného jazyka (napr. knihy, časopisy, noviny, právne dokumenty, databázy, korporátna informácia, Web), • Biologické sekvencie (napr. DNA, sekvencie proteinov), • ... • Textová databáza je systém, ktorý spravuje (zvyčajne veľké) kolekcie textov a poskytuje rýchly a bezchybný/presný prístup k nim. • Tieto požiadavky sú protichodné, ale obe sú kritické, ak máme mať úžitok z texotvých kolekcií.

TXT DB – Typy dotazov • Syntaktickévyhľadávanie (vyjadrené ako postupnosť znakov prítomných v texte): • String matching (najjednoduchší typ dotazu, cely rad algoritmov – Knut-Morris-Pratt first O(n)) • Regulárnevýrazy • Approximate searching (poskytuje možnosť eliminovať rôzne typy chýb, ktoré môžu byť obsiahnuté v texte – či už prehľadávanom, alebo dotaze - napr.edit distance) • Sémantickévyhľadávanie(má veľký význam) – používateľ zadá informáciu, ktorú požaduje a systém vyhľadá súbor textov (dokumentov) relevantných požiadavkám používateľa; dokonca aj vtedy ak sa výsledok priamo neobjavuje v dotaze. Systém ohodnocuje dokumenty a dokumenty s najvyšším ohodnotením ponúkne používateľovi. V tomto prípade nehovoríme o správnej alebo nesprávnej odpovedi, ale iba lepšej alebo horšej.

Fulltextové vyhľadávanie • V tradičných SRBD je manipulácia s textom obmedzená bežnými reťazcovými funkciami (exact matching podreťazcov) • Tradičné reťazcové operácie sú mimoriadne drahé pre veľké dokumenty – SRBD nemajú efektívnu podporu pre tieto operácie a preto sú rozširované o špeciálne moduly – fulltexotvého vyhľadávania (full-text search;FTS).

Alternatívy implementácie FTS • FTS moduly ako súčasť SRBD (Oracle, Microsoft SQLServer, Postgres, mySQL; Informix Text Datablade; ) • Databázovo nezávislé FTS (SPSS LexiQuest, SAS Text Miner, dtSearch, Statistica Text Miner, ...)

Spôsoby spracovania • Text mining • Full text search

Text mining • Podoblasť správy dokumentov, ktorej cieľom je spracovanie, vyhľadávanie a analýza dokumentov • Cieľ – objaviť netriviálne skryté charakteristiky dokumentov samotnýchalebo ich súborov • Interdisciplinárna oblasť strojového učenia, ktorá využíva prístupy a nástroje z oblastí: • computational linguistics, • natural language processing, • information retrieval, • data mining.

Schéma aplikácie text mining-u

Information Extraction • Príklady podúloh: • Rozpoznanie pomenovaných objektov (osoby, geografické názvy, firmy, kluby, ...), • co-reference resolution – identifikácia fragmentov textu odkazujúcich na tie isté entity/objekty, • Identifikácia rolí a ich vzťahov

Kategorizácia textov • Cieľ – zaradenie dokumentovv rámci stanovenej kategorizácie; napr.: • document filtering –spamfiltering, alebo newsfeed; • patent document routing – determination ofexperts in the given fields; • assisted categorization – helping domainexperts in manual categorization with valuablesuggestion; • automatic metadata generation.

Zhlukovanie dokumentov • Zhlukovanie/združovanie elementov kolekcie na základe ich podobnosri. • Dokumentysu zvyčajne zhlukované na základe obsahu. • Zhlukovanie môže byť aplikované napr. na: • Zhlukovanie výsledkov vyhľadávania kvôli lepšej orientácii používateľa vo výsledkoch, • Zvýšenie výkonnosti tzv. vector space based information retrieval, • Realizáciu „navigačného“ prístupu k prehľadávaniu dokumentov.

Summarizácia • Automatické generovanie krátkeho zhrnutia dokumentu

FULL-TEXT SEARCH (FTS)ENGINES

Fulltextové indexy • Kľúčový problém v oblasti spracovanie textov (information retrieval)je návrh a implementácia efektívnych dátovych štruktúr a algoritmov pre indexovaniea vyhľadávanie informačných objektov, ktoré sú opísané nejasne. • Najčastejšie používané štruktúry: • invertované súbory (inverted files); • signatúrové súbory (signature files); • bitmapové indexy.

Informix • Excalibur Text DataBlade Module provides text search capabilities that include: • phrase matching, • exact and fuzzy searches, • compensation for misspelling, • synonym matching.

Lingvistické korpusy • Kolekcie textov v konkrétnom jazyku určené primárne pre lingvistický výskum • Značkované texty • Príklady: • British National Corpus (100 mil. slov) • Slovenský národný korpus (530 mil. tokenov) • Český národný korpus (300 mil. slov) • Paralelné korpusy

Otázky?

Text ové Datab á zy

Text ové Datab á zy

Presentation Transcript

Your Discourse Analysis Project

Text Properties

Ch 4. Processing Text

Text Features

Text and Subtext

Text

Text

Text Text Text Text Text Text Text Text Text Text Text Text Text Text

Text Goes Here

THE TEXT MESSAGE

Creating Text

Mẫu Chart Cánh Hoa

Text Features

#999

Basic text screen

Text Structure

Particle Flow Using TEXT

Obje ktovo – Orientovan é Datab ázy (ODBMS)

DRUG TEXT

Text Features

Text Features

抗原的概念与应用

Sea Ice

Sea Ice