1 / 40

Sémantický web

Sémantický web. úvodní seznámení. Vojtěch Svátek. Cíl přednášky. Ukázat, že současnému webu chybí „sémantika“, a že je do jisté míry možné ji „doplnit“ pomocí nástrojů pro reprezentaci a zpracování znalostí

percy
Télécharger la présentation

Sémantický web

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sémantický web úvodní seznámení Vojtěch Svátek

  2. Cíl přednášky • Ukázat, že současnému webu chybí „sémantika“, a že je do jisté míry možné ji „doplnit“ pomocí nástrojů pro reprezentaci a zpracování znalostí • Poskytnout stručný přehled vybraných technologií používaných v souvislosti s koncepcí sémantického webu

  3. Osnova přednášky • Značkovací jazyky: HTML a XML • Jádro sémantického webu: RDF a ontologie • Automatické sémantické anotování a učení ontologií

  4. Značkovací jazyky - HTML • HyperText Mark-up Language • značky (tagy) z pevně daného souboru instrukcí pro zobrazovací program (browser) • sémantiku v podstatě (bez externě dodaných konstrukcí) zachytit nelze<p>Ceníklázeňské péče:</p> <ul> <li>Perličková koupel, pro děti, <b>cena 280 Kč</b><li>Rašelinová koupel, pro dospělé, <b>cena 400 Kč</b> </ul>

  5. Značkovací jazyky - HTML (2) • Ceník lázeňské péče: • Perličková koupel, pro děti, cena 280 Kč • Rašelinová koupel, pro dospělé,cena 400 Kč

  6. Značkovací jazyky - XML • značky (tagy) mohou být nadefinovány libovolně podle potřeby • struktura dokumentů daného typu popsána v DTD nebo XML schématu • dokumenty mohou být zpracovány libovolnými aplikacemi, které rozumějí danému schématu

  7. Značkovací jazyky - XML (2) <nabidka> <polozka> <urceni>děti</urceni> <druh>perličková koupel</druh> <cena mena=“czk”>280</cena> </polozka> <polozka><urceni>dospělí</urceni> <druh>rašelinová koupel</druh> <cena mena=“czk”>400</cena> </polozka> </nabidka> fragment DTD <!ELEMENT nabidka (polozka+) > <!ELEMENT polozka (urceni,druh,cena?) > <!ELEMENT cena (#PCDATA) > <!ATTLIST cena mena NMTOKEN >

  8. XML a sémantika • Sémantika: význam sdělení pro příjemce • Stromová struktura XML pouze předepisuje způsob zaznamenání dat, nic nevypovídá o jejich významu • Sémantickou informaci musí do aplikace “vpravit” výhradně lidský uživatel!

  9. XML a sémantika (2) Lázně A <polozka><urceni>děti</urceni> <druh>perličková koupel </druh> <terapie> podpůrná </terapie> <cena mena=“czk”> 280 </cena></polozka> Lázně B <polozka> <urceni>oběhové potíže</urceni> <druh>samoplátce </druh> <terapie> rašelinová koupel </terapie> <cena mena=“czk”>300 </cena></polozka> ? ? ?

  10. Osnova přednášky • Značkovací jazyky: HTML a XML • Jádro sémantického webu: RDF a ontologie • Automatické sémantické anotování a učení ontologií

  11. Sémantický web jako problémová oblast • Termín zaveden kolem r.2000 pro oblast výzkumu vzniklou spojením • nástrojů a standardů sítě WWW • technologie reprezentace a zpracování znalostí, zejména • modelování znalostí (ontologické inženýrství) • formální logiky (deskripční, event. Hornova logika) • Později se zapojily i další komunity • zpracování přir. jazyka, text/web mining, databáze, (mezi-)podnikové procesy, filosofie, zpracování neurčitosti, sociální sítě, HCI a multimédia... • Dialog komunit je přínosem už sám o sobě

  12. Sémantický web jako „artefakt“ či „fenomén“ • Tim Berners-Lee: aby web nebyl jen pro lidi, ale i pro počítače, musí být schopen formálně reprezentovat informace a definovat jejich význam, tak, aby nad nimi bylo možné automaticky odvozovat • Jádrem současné koncepce sémantického webu jsou data reprezentovaná v jazyce RDF, s významem definovaným pomocí ontologií, a s odvozováním nových informací zejména pomocípravidel(o nich až později…)

  13. Tradiční model vrstev sémantického webu Zachycení důvěry v data apod. Pravidla: odvozování nových fakt Ontologie (OWL): formální definice pojmů RDF: „nosič dat“ (fakta) XML: syntaktická úroveň (ukládání dat)

  14. Stav standardizace • XML – široce rozšířená technologie (i mimo webové prostředí) • RDF, OWL – doporučení (standardy) konsorcia W3C, rozsáhlá komunita uživatelů, velký počet implementací • pravidlové jazyky – existuje řada návrhů, některé poměrně propracované (např. SWRL), ale ještě nelze mluvit o standardu, omezená implementační podpora • důvěra apod. – zatím na úrovni výzkumných prototypů a diskusí v pracovních skupinách

  15. RDF • “Resource Description Framework” • Doporučení konsorcia W3Chttp://www.w3.org/RDF/ • Jednoduchý jazyk, v němž je možné vyjádřit tvrzení typu “Zdroj X nabývá pro vlastnost Y hodnoty Z” - tzv. trojice (“triple”) subjekt-predikát-objekt • Např.: subjekt predikát objektpoložka32 léčba perličková_koupel položka32 cena X32X32 měna czkX32 hodnota 280X32 typCeny cena_s_DPH

  16. položka32 czk 280 RDFgrafická notace léčba Perličková _koupel cena měna hodnota Cena_s_DPH typCeny

  17. RDF - další možnosti • sdružování zdrojů do kolekcí (“container”) • reifikace - možnost formulovat tvrzení otvrzeních • předdefinované vlastnosti „subject“, „predicate“, „object“, a typ zdroje „statement“ • např. pro označení autora daného tvrzení • není přímo spojeno s původním tvrzením • “typování” zdrojů (rozdělení do tříd) pomocí RDF Schema

  18. RDF versus XML • modulární (trojice na sobě nezávislé) • subjekty, predikáty i některé objekty jsou zdroje s jednoznačným identifikátorem - URI (Uniform Resource Identifier) • trojice = fakta o světě, kterým lze přiřadit pravdivostní hodnotu; nejde jen o strukturu dat jako v případě XML stromů • samotné RDF ovšem stále nestačí pro strojové odvozování nových informací!

  19. XML syntaxe RDF • RDF lze zapisovat (serializovat) pomocí XML, např.:<rdf:RDFxmlns:r="http://www.lazenska_pece.cz/"> <rdf:Description about="http://www.lazne-a.cz/polozka32"> <r:léčba rdf:resource="http://www.procedury.cz/perlickova_koupel"/> </rdf:Description></rdf:RDF> Subjekt Predikát Objekt

  20. RDF ontologie • Nová tvrzení můžeme odvodit tehdy, když konkrétní zdroje přiřadíme k obecným třídám jakožto jejich instance pomocí konstrukce rdf:type • Vlastnosti definované u tříd se pak promítají do jejich instancí • Struktura tříd a jejich vlastnosti mohou být definovány v ontologiích • Hlavní jazyky pro reprezentaci webových ontologií: • RDF Schema: jednoduchý hierarchický jazyk • OWL: jazyk s bohatými vyjadřovacími možnostmi, založen na deskripční logice

  21. RDF Schema • Standard zahrnuje možnost specifikovat: • vztah třídy a podtřídy, vlastnosti a “podvlastnosti” • subclass(Koupel,Léčba) • subproperty(léčí,ovlivňuje) • definiční obor a obor hodnot vlastnosti • domain (určení) = Léčba • range (určení) = Kategorie_pojištěnce

  22. Ontologie • Původně (ve filosofii) věda o “bytí” a „jsoucnech“ • V informatice se ontologiínazývá určitý soubor informací - tzv. formální specifikace sdílené konceptualizace • konceptualizace: abstraktní model určité oblasti - soubor pojmů a vztahů mezi nimi • formální: vyjádřená ve formálně-logickém jazyce, zpracovatelná počítačem • sdílená: je výsledkem dohody více subjektů

  23. Jazyk OWL • založen na určité variantě tzv. deskripční logiky • oproti RDFS umožňuje definovat např. • lokální omezení vlastností v rámci určité třídy: • na kardinalitu (skupinová terapie je prováděnaalespoň dvěmaosobám), • univerzální a existenční kvantifikace • matematické charakteristiky vlastností (vlastnost ”být součástí” je tranzitivní, vlastnost “mít kód MKN” je funkční...); inverzní vlastnosti • disjunktnost či ekvivalenci tříd (třída Léčba je disjunktní se třídou Klient) • anonymní (nepojmenované) třídy, definované určitým logickým výrazem pro jednorázové použití

  24. Příklad části ontologie v OWL <owl:Class rdf:ID=„Léková_inhalace"> <rdfs:subClassOf rdf:resource=„Inhalace" /> <rdfs:subClassOf> <owl:Restriction> <owl:onProperty rdf:resource=„inhalovanáLátka"/> <owl:someValuesFrom rdf:resource=„Lék”/> </owl:Restriction> </rdfs:subClassOf></owl:Class> Třída “Léková inhalace” je podtřídou třídy “Inhalace”, a každá její instance musí být spojena relací “inhalovanáLátka” s alespoň 1 instancí třídy “Lék”

  25. Odvozovací úlohy v OWL • Testování splnitelnosti tříd… tím i konzistence ontologie jako logické teorie • Odvozování taxonomické struktury • Ověřování příslušnosti instance ke třídě • Klasifikace individua vzhledem k ontologii • …a některé další

  26. Osnova přednášky • Značkovací jazyky: HTML a XML • Jádro sémantického webu: RDF a ontologie • Automatické sémantické anotování a učení ontologií

  27. Sémantický web a textové zdroje • Sémantický web je (primárně) určen pro softwarové aplikace – hlavní je pro něj formálněstrukturovanáreprezentace • Podstatou současného webu jsou převážně texty (v menší míře obrázky) v prezentační struktuře (HTML) • Pro vznik „nadkritického“ množství formálně strukturovaných („sémantických“) dat je nezbytné využít existující texty a prezentační strukturu

  28. Sémantický web a textové zdroje (2) • Transformace textu na sémantické struktury (např. RDF) pomocí vyznačování jeho částí se označuje jako sémantické anotování • ruční • poloautomatické • automatické • Automatickéanotování je založené na metodách označovaných jakoextrakce informací (information extraction – IE)

  29. Sémantický web a textové zdroje (3) • Ontologie jsou obvykle méně rozsáhlé a stabilnější než báze RDF faktů • I tak je ale jejich tvorba náročná a je obtížné dosáhnout reprezentativního pokrytí problémové oblasti • Automatickou analýzou (dolováním z) textů lze nalézt • termíny – kandidáty na třídy, relace a instance • taxonomické a netaxonomické vztahy • někdy i další logické axiomy • Tento proces se často označuje jako učení ontologií

  30. Extrakce informací • Prehistorie již několik desítek let v rámci strojové lingvistiky – sémantická analýza struktury vět • nadstavba plné syntaktické větné analýzy • snaha o preciznost a obecnost (nezávislost na doméně) • náročné ruční anotování dat, nízká adaptovatelnost pro specifickou doménu • dnes např. tzv. tektogramatická vrstva pražského závislostního korpusu

  31. Extrakce informací (2) • „Pragmatická“ větev IE vznikla koncem 80. let jako prostředek pro rychlé vyhledávání klíčových informací v krátkých textových zprávách, např. • nehody, teroristické/kriminální činy… • obchodní svět (akvizice, personální změny) • Brzy rozšíření do dalších oblastí, např. • předpovědi počasí • lékařské zprávy • … a obecně pro webová data: web IE

  32. Extrakce informací (3) • Zpočátku většinou založené na jednoduchých ručně formulovaných vzorech (vzorcích?) – regulární výrazy • Příklad z oblasti medicíny – extrakce hodnot krevního tlaku TK ([0-9]+)/([0-9]+) • Na rozdíl od „čistého“ lingvistického přístupu funguje i pro „útržkovitý“ text

  33. Extrakce informací (4) • Ruční tvorba vzorů je často subjektivně ovlivněná a při nárůstu jejich počtu je obtížně je udržovat • Hlavním přístupem se později stalo učení vzorů, ať už v rámci • symbolických pravidel (explicitní vzory) • statistických modelů (implicitní vzory skryté v pravděpodobnostních distribucích) • wrapperů (explicitní vzory nad elementy HTML)

  34. Extrakce informací (5) • Učení vzorů ovšem vyžaduje ručně anotovaná trénovací data/příklady • Wrappery • stačí několik málo příkladů, ale omezené využití (závislost na strukturovanosti stránky) • Pravidla • větší množství trénovacích dat • Statistické modely • velké množství trénovacích dat

  35. Extrakce informací (6) • Čistě ruční tvorba trénovacích dat je velmi nákladná, proto se používají iterativní procesy • Statistický bootstrapping: vzory, které jsou velmi úspěšné na malém vzorku ručně anotovaných trénovacích dat jsou následně použity pro anotování dalších dat (nese s sebou riziko propagace chyb) • Bootstrapping založený na redundanci informací (zejména pro WWW): z informace, kterou systém najde na různých zdrojích v různé struktuře, odvodí formální tvar informací v těchto zdrojích (např. biblio, inzeráty – systém Armadillo) a podle toho z nich extrahuje informace o dosud neznámých objektech

  36. Extrakce informací (7) • Vedle toho se stále uplatňují přístupy založené na ruční tvorbě vzorů (zpravidla v kombinaci s učením ev. wrappery) • Perspektivní jsou zejména přístupy založené na extrakčních ontologiích (Embley, Labský) • Výhoda rychlého startu – vytvoří se zárodek modelu, který je iterativně vylepšován • Souvislost mezi extrakčními a „normálními“ doménovými ontologiemi – možnost částečné transformace jedněch na druhé

  37. Část extrakční ontologie pro kontaktní informace na lékařských stránkách (Labský 2007) <class id="Contact"> ... <attribute id="title" type="name" card="0-4" eng="0.80"> <pattern id="titles" ignore="case"> (( MUDr | MVDr | PhDr | PhD | Dr | Mgr | Bc | BSc | CSc | Ing | Doc | Prof | PharmDr | RNDr | RSDr | DiS | PaedDr | PaeDr | PhMr | MgA | Ph . D | DrSc | Dr . Sc | JUDr | BcA | ThDr | MBA | M .? B .? A | Mr | Mrs | Ms | Sir | MD | MSc ) .?) ( docent | docentka | profesor | associate professor (of <tok type="alpha"/>)? | Associate Professor (of <tok type="alpha"/>)? | profesorka | magistr | magister | magistra | doctor ) ( MB | BS | MBBS | FRCP | MRCP | FRCPsych | MRCPCH | MBChB | DRCOG | Bchir | ChB ) </pattern> <value> <pattern cover="0.95" ignore="case" p="0.95"> <pattern ref="titles" /> </pattern> <length><distribution min="1" max="2" /></length> </value> </attribute> ...

  38. Učení ontologií • Víceméně kopíruje proces ruční tvorby ontologií, ale snaží se využít automatické techniky • Hlavní fáze • extrakce klíčových termínů • identifikace tříd a instancí pojmů • tvorba taxonomie • tvorba a pojmenování netaxonomických relací • tvorba složitějších axiomů, a charakterizace ve smyslu „upper-level“(např. „látkové“ pojmy…)

  39. Učení ontologií (2) • Dva hlavní směry (často se prolínají) • směr založený na četnostech termínů v dokumentech, např. • pokud ve většině dokumentů, kde se vyskytuje t2, se také (lépe: v jeho blízkosti) vyskytuje t1, pak by t2 mohl označovat podtřídu vzhledem k t1 • pokud se t1 a t2 vyskytují ve většině dokumentů v blízkosti jeden druhého, mohlo by jít o netaxonomickou relaci • směr založený na strukturních vzorech (Hearst patterns) – souvislost s IE • např.: „X a jiné Y“, „X je Y, který…“, „…tyto Y: X, …“

  40. Shrnutí • Běžné technologie WWW (zejména jazyk HTML) poskytují jen minimální možnosti zachytit věcný význam vystavených údajů • Základem koncepce sémantického webu je přiřazení konkrétních zdrojů k obecným třídám, o kterých lze formulovat logické teorie (ontologie) • Konkrétní realizací sémantického webu je v současnosti prostředí RDF a ontologického jazyka OWL, dále se pracuje na pravidlové vrstvě • Pro vznik dostatečného objemu sémanticky anotovaných dat je nutné využití mj. technik dolování z textů a zpracování přirozeného jazyka

More Related