1 / 75

Báze ANL FULL v systému TOPIC Inforum Praha, 22. května 2002

Báze ANL FULL v systému TOPIC Inforum Praha, 22. května 2002. Ivana Anděrová, NKČR Ivo Mattern, Anopress Josef Kučera, Anopress Oddělení analytického zpracování NKČR Anopress. závažnost významnost důležitost adekvátnost. závažný významný důležitý adekvátní, odpovídající.

ivory
Télécharger la présentation

Báze ANL FULL v systému TOPIC Inforum Praha, 22. května 2002

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Báze ANL FULL v systému TOPICInforumPraha, 22. května 2002 Ivana Anděrová, NKČR Ivo Mattern, Anopress Josef Kučera, Anopress Oddělení analytického zpracování NKČR Anopress

  2. závažnost významnost důležitost adekvátnost závažný významný důležitý adekvátní, odpovídající Relevance - relevantní

  3. příslušnost potřebnost využitelnost příslušný potřebný využitelný Pertinence - pertinentní

  4. Relevance, pertinence? • relevance je určitý stupeň shody mezi entitami, oblastmi, prvky, jevy • může být formální a obsahová • má relativní charakter v závislosti na čase a místě • relevance odpovídající konkrétní potřebě koncového uživatele se nazývá pertinence

  5. Komunikační proces - komplexní pohled na relevanci • relevance systému tvorby a potřeby informací • relevance informačního systému vzhledem k jeho funkci a postavení v komunikačním procesu • relevance z hlediska funkcí a procesů probíhajících v informačním systému

  6. Relevance a vyhledávání • relevance vyhledávání je závislá na poměru mezi úplností a přesností vyhledávání • úplnost výsledku vyhledávání (recall) - poměr mezi nalezenými dokumenty a všemi relevantními dokumenty v databázi • přesnost výsledku vyhledávání (precision) - poměr mezi nalezenými relevantními dokumenty a mezi všemi nalezenými dokumenty • úplnost a přesnost vyhledávání se měří koeficientem úplnosti a přesnosti • optimálně: hodnota koeficientu přesnosti a úplnosti se rovná jedné

  7. Selekční jazyk, zpracování a vyhledávání • selekční jazyk je nástroj určený k formulaci identifikačních a obsahových údajů o dokumentu (selekčního obrazu) a k formulaci dotazu uživatele (selekčního předpisu) • kvalita vyhledávání závisí na tom, do jaké míry selekční jazyk odráží a vystihuje obsah a strukturu dokumentu a dotazu • kvalita výsledku vyhledávání je určena mírou shody selekčního obrazu a selekčního předpisu a do jaké míry vyhovuje uživatelově informační potřebě

  8. Sémiotika – tři úrovně sdělování a jazyka • syntaktická úroveň (formální přenos zpráv, elementy jazyka a jejich vzájemné vazby, formální uspořádání) • sémantická úroveň (přenos zpráv z hlediska obsahu, vztah elementů k mimojazykovým entitám, vztah mezi znaky a objekty) • pragmatická úroveň (soustavy, mezi nimiž dochází ke komunikaci - účinky komunikace na vysílajícího a příjemce)

  9. Richardsonův trojúhelník reference – znázornění znakové situace Richardsonův trojúhelník reference – znázornění znakové situace reference (myšlenka) vztahuje se k symbolizuje referent (denotát, věc) symbol vložený vztah prostřednictvím myšlení

  10. Richardsonův trojúhelník - aplikace na selekční jazyk sémantická úroveň - věcný obsah deskriptorů pragmatická úroveň - užití deskriptorů ve sdělení syntaktická úroveň - pravidla psaní a řazení deskriptorů

  11. Tři úrovně analýzy relevance z hlediska poskytnuté informace • formální relevance (formální vztah poskytnuté informace k obsahu dotazu) - vztah syntaxe • věcná relevance ( vztah obsahu poskytnuté informace k obsahu dotazu) - sémantický vztah • pertinence (vztah poskytnuté informace k informační potřebě) - pragmatický charakter

  12. Trojúhelník reference a tři úrovně analýzy relevance věcná relevance pertinence formální relevance

  13. Vztah relevance (formální, věcné) a pertinence pertinence relevance relevance=pertinence

  14. Vztah množin formálně, věcně relevantních a pertinentních dokumentů a informačního fondu formálně relevantní nalezené dokumenty věcně relevantní dokumenty dotaz informační fond pertinentní dokumenty nalezené pertinentní dokumenty

  15. Efektivnost informačního systému - kritéria • ekonomická efektivnost (zisk, náklady, rentabilita) • selekční efektivnost (vyhledání a poskytnutí relevantních, resp. pertinentních informací) • flexibilita (kritéria časová a schopnost přizpůsobit se změnám)

  16. Zpřístupnění českých plných textů a některé projekty • Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, MKČR, 1999-2003) • Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (VaV, MKČR, 2000-2004)

  17. Rámec zpřístupnění plných textů a ANL FULL • zdroje plných textů • získávání plných textů • zpracování záznamů a plných textů • identifikace plných textů • propojení záznamů s plnými texty • uložení plných textů • vyhledání a zpřístupnění plných textů • výstupy • uživatelé • služby a platby

  18. Zpracování článků v ČR. KOSABI. Báze ANL. Báze ANL FULL • zpracování článků v ČR - rozsáhlé co do zdrojů i typů institucí • Kooperační systém článkové bibliografie - „užší“ a „širší“ • kooperace po linii regionální a oborové • souborná bibliografická databáze KOSABI - ANL a lokální databáze spolupracujících institucí, plnotextová báze ANL FULL s metadaty

  19. lokální KOSABI lokální ANL FULL plnotextová, metadata ANL souborná bibliografická lokální lokální lokální

  20. Obsah báze ANL, ANL FULL (duben 2002) • počet : ANL 710 000 bibliografických záznamů, ANL FULL 92 000 plných textů s metadaty • počet zpracovávaných titulů: ANL 210 v NKČR, 469 ve spolupracujících institucích; ANL FULL 30 titulů, běžně zpracovávaných zatím 14 • časové pokrytí: ANL 1990/91 -, ANL FULL 1997-

  21. Charakteristika obou bází • výběrové článkové databáze • obory: všechny (lékařství a sport okrajově, technika posílila) • typy seriálů (časopisy, sborníky, ročenky vydávané AVČR, vysokými školami aj. institucemi, noviny a kulturně politické časopisy, populárně-naučné časopisy omezeně) • úplnost excerpce (výběr článků vzhledem k typům seriálů) • typy článků (faktograficky přínosné, odborné, s dokumentární a uměleckou hodnotou, recenze, biografické články, akce, rozhovory, komentáře..) • popis (UNIMARC, AACR2, MDT-MRF, předmětové kategorie, hesla, klíčová slova)

  22. Srovnání bází ANL a ANL FULL • ANL zpracovávána v sytému ALEPH+lince zpracování TTDE a zpřístupněna v ALEPHu, ANL FULL vzniká v lince zpracování TTDE a zpřístupněna v systému TOPIC • ANL obsahuje bibliografické záznamy, ANL FULL plné texty s metadaty • ANL obsahuje všechny typy stanovených seriálů • ANL FULL obsahuje zatím deníky a některé časopisy • záznamy ANL jsou propojeny s plnými texty ANL FULL, ANL FULL doplňuje ANL • ANL FULL je doplněna portálem volně přístupných textů na internetu a samostatnou aplikací pro zpřístupnění periodika Národní knihovna • ANL propojena na vybrané volně přístupné www tituly

  23. Zpracování v ALEPHu a v rámci linky zpracování TTDE v NKČR, zpracování v KOSABI • báze ANL - přírůstek NKČR - 3266 záznamů / měsíc / 11 úvazků / jmenný a věcný popis, z toho: • zpracování v ALEPHu - 1689 záznamů / měsíc / 7,5 úvazku - jmenný a věcný popis ručně, linka zpracování TTDE - 1577 záznamů / měsíc / 3,5 úvazku - jmenný popis extrahován a generován automaticky, věcný popis ručně • zpracování v ALEPHu - 11 záznamů / úvazek /den, zpracování v TTDE - 21 záznamů / úvazek /den • báze ANL - přírůstek z kooperujících institucí:1000 záznamů / měsíc

  24. Báze ANL FULL. Architektura systému zpracování a zpřístupnění plných textů • v současné době ANL FULL vzniká on-line v rámci linky zpracování TTDE bibliografických záznamů, resp. metadat z plných textů, které jsou získávány z databáze Tam Tam (Anopress) • plné texty získány též v rámci konzorcia Anopress, retrospektiva - nákup • báze je provozována v systému TOPIC

  25. TamTam TTSNK Lokální pracovní stanice- TTDE Internet Information Server Aplikační, datový server – TOPIC, DELL, Win NT ALEPH OPAC Web server

  26. Linka zpracování, lokální stanice TamTam dokumenty TTSNK

  27. Linka zpracování. Výstupy pro ANL/ALEPH a ANL FULL/TOPIC v praxi

  28. Systém TOPIC - principy • Produkt americké firmy Verity, v současné verzi Portal One.V ČR TOPIC a další produkty založené na stejné technologii dodává firma TOVEK, s.r.o. • fulltextový pojmově orientovaný vyhledávací systém, pojmové vyhledávání (concept retrieval) pomocí strukturovaných dotazů (topiců) • hodnocení důležitosti vyhledaných dokumentů vzhledem k dotazu (relevance ranking) • kvantifikace obsahu dokumentů • shlukování dokumentů podle společného kontextu (clustering) a vytváření automatické anotace - sumarizace (summarization) • interaktivní vyhledávací systém – hledání dokumentů s podobným obsahem - volný dotaz (Free Text Query), dotaz příkladem (Query By Example)

  29. TOPIC a relevance • relevance je důležitost vyhledaného dokumentu vzhledem k dotazu, vyjadřujeme ji pomocí skóre dokumentu • skóre je číslo mezi 0-100 (%), = relevance dokumentu, výpočet provádí TOPIC

  30. Topic=dotaz • dotaz - výraz složený ze slov a frází, který hledáme v dané databázi • topic - je předem definovaný uložený strukturovaný dotaz, resp. téma, které je tvořeno slovy, frázemi, operátory a modifikátory; obsahuje informace o předmětu hledání • topic má podobu pojmového stromu, na jeho nižších úrovních (větvích) jsou množiny dalších pojmů, resp. témat, která jsou tvořena dále nedělitelnými klíčovými slovy (listy) • pojmový strom tvoří vyhledávací podmínku pro dokumenty týkající se určitého tématu • topic je konceptuální popis znalosti o dané problematice ve formě znalostního stromu • definice topiců tvoří tzv. znalostní bázi

  31. Konstrukce topicu • jednotlivé větvě topicu, resp. témata, resp. slova jsou připojena k vyšší úrovni operátory • důležitost pojmů resp. témat, resp. slov je určena váhami • topic se vytváří speciálním editorem • předpoklad: dobrá znalost operátorů a orientace v dané oblasti

  32. Topic - některé operátory, modifikátory • listové operátory: WORD, STEM, SOUNDEX, WILDCARD, THESAURUS, SUGGEST a TYPO • proximitní operátory: PHRASE, SENTENCE,PARAGRAPH, NEAR • koncepční operátory: AND, OR a ACCRUE • logické operátory: ANY a ALL • relační operátory: rovnost `=', větší než `>', větší nebo rovno `>=', menší než `<', menší nebo rovno `<=', MATCHES, SUBSTRING, CONTAINS, STARTS,ENDS • modifikátory (specifikují chování operátorů): MANY, CASE, NOT, ORDER

  33. Topic - váhy • váha je číslo mezi 0-100 (%) vyjadřující důležitost hledaného výrazu ve vztahu k dotazu • váhy lze použít pouze u “výrazů“ připojených pomocí  koncepčních operátorů (AND, OR a ACCRUE); pokud váhu neuvedeme, použije se standardní váha - pro AND a OR1.00, pro ACCRUE0.50 • přiřazením váhy k “výrazu“ určujeme, jak (od 0.01 do 1.00) se „výraz“ podílí na celkovém skóre daného dokumentu při výběru; změnou vah je možno změnit pořadí dokumentů v seznamu dokumentů dle skóre relevance

  34. ACCRUE sbližuje operátor AND a OR: “čím více různých klíčových slov nalezeno, tím je dokument důležitější“ ACCRUE řeší dilema mezi přesností a úplností Fuzzy operátor ACCRUE Dotaz (X Y Z) Chci najít Najdu (X and Y and Z) Accrue (X,Z,Y) (X or Y or Z) Ztráta úplnosti Optimální výsledek Ztráta přesnosti

  35. Topic - znaková situace obsah dotazu ekologie, životní prostředí topic popis dotazu použitá znalost, strukturovaný dotaz ochránci životního prostředí, ochrana životního prostředí, krajina, příroda, voda, řeka, …. Ekologie

  36. Konkrétní dotaz – stromová struktura

  37. Báze ANL FULL v systému TOPIC, jak se zaregistrovat • v současné době obsahuje výběr článků z celostátních deníků, některé kulturně politické, ekonomické tituly, periodikum Národní knihovna, okrajově některé regionální tituly, doplněna portálem volně přístupných textů na internetu (strukturovaný oborově a regionálně) • vzniká v lince zpracování bibliografických záznamů z plných textů TTDE • přístup: interní uživatelé NK - metadata a plné texty, externí uživatele - metadata, plné texty zkušebně na 7 dnů

More Related