1 / 22

Projektverbund Ontoverse Kooperatives vernetztes Wissensmanagement im Bereich Life Sciences

Projektverbund Ontoverse Kooperatives vernetztes Wissensmanagement im Bereich Life Sciences. Christof Rumpf Heinrich-Heine-Universität Düsseldorf 23.06.2005. Antragsrahmen. Projektantrag im BMBF-Förderschwerpunkt eScience und vernetztes Wissensmangement Antragszeitraum 3 Jahre

Télécharger la présentation

Projektverbund Ontoverse Kooperatives vernetztes Wissensmanagement im Bereich Life Sciences

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Projektverbund OntoverseKooperatives vernetztes Wissensmanagement im Bereich Life Sciences Christof Rumpf Heinrich-Heine-Universität Düsseldorf 23.06.2005

  2. Antragsrahmen • Projektantrag im BMBF-Förderschwerpunkt eScience und vernetztes Wissensmangement • Antragszeitraum 3 Jahre • Antragsvolumen 2,3 Mio € (ca. 13 Arbeitsplätze + ca. 100.000 € Sachmittel)

  3. Projektpartner

  4. Ziele • Erstellen einer Ontologie für die biomedizinische Domäne durch Verschmelzung vorhandener Ontologien • Erstellen eines Informationsextraktionssystems basierend auf der Ontologie • Erweiterung der Ontologie • webbasiert durch Anwender (Wikipedia) • halbautomatisch bei der Informationsextraktion

  5. Was heisst Ontologie? • Erstes Vorkommen des Wortes Ontologie in: Jacob Lorhard (1606) Ogdoas Scholastica. • Philosophie: Ontologie ist die Wissenschaft vom Sein; Zweig der Metaphysik. • KI und Wissensrepräsentation: Ontologie als formale Theorie über Eigenschaften und Relationen abstrakter Entitäten (Konzepte) aus einer Sprache (Vokabular, inbes. Nomen).

  6. Konzepthierarchien • Ontologien sind hierarchische Ordnungen von Konzepten (Subsumption) • primäre hierarchiebildende Relationen: • is_a Ober- / Unterbegriff • part_of Teil- Ganzesbeziehungen • sekundäre Relationen: • synonym, antonym, subset, definition, has_property, …

  7. Beispiel: Gene Ontology (GO) • Molecular Function 7,493 terms • Biological Process 9,640terms • Cellular Component1,634 terms • Total 18,767 terms • Definitions: 16,696 (93.9 %) Quelle: ftp://ftp.geneontology.org/pub/go/teaching_resources/presentations/2005-05_Purdue_edimmer.ppt

  8. Ausschnitt GO-Hierarchie rote Pfeile: part_ofblaue Pfeile: is_a Quelle: ftp://ftp.geneontology.org/pub/go/teaching_resources/presentations/2005-05_Purdue_edimmer.ppt

  9. GO Terme [Term] id: GO:0000001 name: mitochondrion inheritance namespace: biological_process def: "The distribution of mitochondria\, including the mitochondrial genome\, into daughter cells after mitosis or meiosis\, mediated by interactions between mitochondria and the cytoskeleton." [PMID:10873824, PMID:11389764, SGD:mcc] is_a: GO:0048308 ! organelle inheritance is_a: GO:0048311 ! mitochondrion distribution [Term] id: GO:0000002 name: mitochondrial genome maintenance namespace: biological_process def: "The maintenance of the structure and integrity of the mitochondrial genome." [GO:ai] is_a: GO:0007005 ! mitochondrion organization and biogenesis [Term] id: GO:0000003 name: reproduction alt_id: GO:0019952 namespace: biological_process def: "The production by an organism of new individuals that contain some portion of their genetic material inherited from that organism." [GO:curators, ISBN:0198506732] subset: goslim_generic subset: goslim_plant subset: gosubset_prok is_a: GO:0007275 ! development

  10. Nutzen von Ontologien • Ontologien enthalten semantische Relationen zwischen Konzepten und damit Wissen über die Welt bzw. eine Domäne • Ontologien können der Konsensbildung in der Wissenschaft dienen • Ontologien unterstützen Information Retrieval und Informationsextraktion

  11. Aufbau von Ontologien • manuell:Experten definieren Konzepte und Relationen – sehr zeitaufwändig • automatisch:durch maschinelles Lernen auf der Grundlage von Datenbanken oder Texten (Informationsextraktion)

  12. Ontoverse • In Ontoverse soll eine Ontologie für die biomedizinische Domäne auf drei Wegen entstehen: • Verschmelzen vorhandener Ontologien • webbasierte kooperative manuelle Erweiterung im Stil von Wikipedias – semantisches Wiki • halbautomatische Erweiterung durch auf der Ontologie basierende Informationsextraktion

  13. Verschmelzen von Ontologien • Die Architektur der Ontoverse-Ontologie muss alle Relationen und Attribute einer zu verschmelzenden Ontologie abbilden können. • Beim Verschmelzen müssen vollständige und partielle Übernahme von Konzepten berücksichtigt werden. • Inkonsistenzen zwischen Ontologien müssen mit Hilfe eines Logikvalidierers erkannt und (manuell) aufgelöst werden.

  14. semantisches Wiki • kooperatives Ontologiedesign • webbasierte Benutzerschnittstelle • graphisches Visualisierungstool • Authentifizierung von Autoren mit Signatur • Markierung von Änderungen in der Ontologie mit Signatur und Zeitstempel (Trustcenter)

  15. Informationsextraktion (IE) • Bei der IE geht es um die automatische Gewinnung von strukturierter Information (relationale Datensätze) aus unstrukturierter Information (Texten). • Bei der IE müssen Texte maschinell ‚gelesen‘ und partiell ‚verstanden‘ werden. • Das Ontoverse-IE-System stützt sich auf die Ontoverse-Ontologie und soll gleichzeitig zur überwachten Erweiterung der Ontologie dienen.

  16. Phrases Hierarchy Shallow Text Processor ... process=shoot SC= subj=croatian Police obj=18 years old Muslim DatePP = {1/1/1996} LocPP = {Mostar} Grammatical Functions Hierarchy Lookup in Domain Lexicon Templatse Hierarchy DomainLex: shoot=Fight-Lex Linked Types Select a linking type Merge types and Fill template Quelle: Günter Neumann (DFKI) Task Specific Template Filling, based on the TDL Model « Die Spannungen in Mostar nehmen am 1.Jan. 1996 zu, nachdem kroatische Polizisten einen 18jährigen Moslem erschossen haben, der... » process=1=shoot SC= subj=2=croatian Police obj=3=18 years old Muslim DatePP=4={1/1/1996} LocPP= 5={Mostar} action=1=shoot attacker=2=croatian Police templ= attacked=3=18 years old Mulsim date=4= 1/1/1996 loc=5= Mostar

  17. Teilaufgaben der IE • Auf den MUC-1-7 (1987-1998) wurden Teilaufgaben der IE spezifiziert und mit precision und recall bewertet (MUC-7): • NE: Named Entity Task (95/92%) • CO: Coreference Task (69/56%) • TE: Template Element Task (87/86%) • TR: Template Relation Task (86/67%) • ST: Scenario-Template-Task (65/42%)

  18. Generic IE tasks for MUC-7 • (ST) Scenario Template requires filling a template structure with extracted information involving several relations or events of interest • intended to be the MUC approximation to a real-world information extraction problem • identification of partners, products, profits and capitalization of joint ventures

  19. Module eines IE-Systems • Tokenizer (Text  Tokens) • Part-of-Speech-Tagger (Wortarten) • Termerkennung (named entities) • Koreferenzauflösung (nominal, pronominal) • Merger für Objekt-Templates • Dependenz-Parser (grammatische Funktionen) • Merger für Szenario-Templates

  20. Quelle: Günter Neumann (DFKI) The systematic separation of the NLP and the modeling components, dealing with two types of knowledge (1) • The linguistic analysistools comprise (1) a tokenizer, a morphological analyzer (incl. compound analysis) and a POS filter for the lexical processing, and (2) a fragment recognizer for Named Entities and generic phrases (NP, PP, Verbgroup). On the top of this (3) a dependency based parser computes a flat (partial) analysis of the text, enriched with information about grammatical functions. [PNDie Siemens GmbH] [Vhat] [year1988][NPeinen Gewinn] [PPvon 150 Millionen DM], [Compweil] [NPdie Auftraege] [PPim Vergleich] [PPzum Vorjahr] [Cardum 13%] [Vgestiegen sind]. “The siemens company has made a revenue of 150 million marks in 1988, since the orders increased by 13% compared to last year.” hat Subj Comp weil PPs Obj SC Siemens steigen {1988, von(150M)} Gewinn PPs Subj {im(Vergleich) , zum(Vorjahr), um(13%) } Auftrag

  21. Quelle: Günter Neumann (DFKI) Translation into meaningful semantic relations „...Uppsala´s main church...“ Linguistics Syntacic relations between „Uppsala“ and „church“ hasBuilding Building Location Ontology hasChurch Church City hasChurch Church-1 Uppsala Database

  22. Design core ontology • Ontology to extract information • Use linguistic information to enhance the ontology Quelle: Günter Neumann (DFKI) Iterative Ontology Development Ontology after interation Core Ontology

More Related