Semantische Heterogenität bei datenbankübergreifenden Recherchen

Probleme der Integration digitaler Bibliothekssysteme: Semantische Heterogenitätbei datenbankübergreifendenRecherchen Klaus Hahn Zentrum für Psychologische Information und Dokumentation (ZPID) der Universität Trier

Szenario: Information Retrieval attention & performance... GO! • Information Retrieval = Text Retrieval • Internet: retrieval in riesiger + ständig wachsender Textmenge • GOOGLE = ca. 2.ooo.ooo.ooo web pages • pro Tag ca. 1oo.ooo.ooo Anfragen • Standard: Volltext-Suche (+Boole) • optimiert durch individuelle Heuristiken • Output: unpräzise + umfangreich • Texte ohne Struktur  Output ohne Struktur • keine semantische Aufbereitung • W3C: Ontology Inference Layer (OIL) 2.620.000

Information Retrieval: Meta-Daten • Normal-User kann (will?) explorieren • Professioneller (e.g. Wissenschafts-) User braucht maximale Präzision • Semantik effiziente Suche • Fach-Datenbanken als Spezialisierung mit Meta-Daten • Minimum: Titel, Autor, Quelle, etc. • Standards entwickeln sich: DCI, RDF ... • Vorteil: Thesaurus • erschlossene Datenbasis • indiziert über kontrolliertesFachvokabular • Klassifikation und Relationen Fach-Datenbank (Meta-Daten) 12

Information Retrieval: Thesauri Fach-Datenbank A (Meta-Daten A) • Nachteil: Kenntnis der jeweiligen Erschließung / Indizierung unumgänglich • akzeptabel für einen Thesaurus • inakzeptabel für mehrere Datenbanken • zur Zeit (traditionell) getrennte DB • nach wissenschaftlicher Disziplin • nach Organisation • nach Verwertungsprinzip • Internet fördert / provoziert aber unifizierten Zugriff: Komplikationen werden heute nicht mehr akzeptiert • User sollte nicht erst • Datenbankenaufspüren müssen, • sondern schnell hochwertige Informationenfinden können. Fach-Datenbank B (Meta-Daten B) Fach-Datenbank C (Meta-Daten C)

Thesauri im Internet Fach-Datenbank C (Meta-Daten C) • unser Ansatz: Kommunikation aller relevanten (oder selegierten) Datenbanken im Hintergrund • Aufbereitung der User-Query für die verschiedenen DBMS (zB. via XML) • dabei semantischer Transfer zwischen den verschiedenen Thesauri • Brave New World: • ein Such-Portal und • eine Anfrage gegen • jede gewünschte Datenbasis Fach-Datenbank B (Meta-Daten B) Fach-Datenbank A (Meta-Daten A) 62

Informations-Verbund BSP • Deutsches Institut für Internationale Pädagogische Forschung (DIPF) • ca. 5oo.ooo Literaturnachweise ab 1980 • 'Thesaurus' mit ca. 6o.ooo Termen • Informationszentrum Sozialwissenschaften (IZ) • ca. 250 000 Literaturnachweise ab 1945 • Thesaurus mit ca. 11.ooo Termen • Zentrum für Psychologische Information und Dokumentation (ZPID) • ca. 170 000 Literaturnachweise ab 1977 • Thesaurus mit ca. 7.ooo Termen • Universitätsbibliothek Erlangen-Nürnberg (UB Erlangen) • Universitäts- und Stadtbibliothek Köln (USB Köln) • Saarländische Universitäts- und Landesbibliothek (SULB) Fach-Datenbanken 1..n (Meta-Daten)

BSP: Heterogene Systeme Mimik Angst Frustration Psyche • Gesicht • Gesichtsausdruck • Gesichtsmuskeln • Gesichtszüge • Kommunikationsfertigkeiten • Nonverbale Kommunikation • Angst • Angststörungen • Angstverarbeitung • Erfolgsangst • Kastrationsangst • Leistungsangst • Furcht • Frustration • Leistungsmotivation • Misserfolg • ...? Probleme • Ähnliche Semantik, unterschiedliche Benennung • Aufgeschlossenheit / Offenheit • Klinikum / Krankenhaus ... • Ähnliche Benennungen, unterschiedliche Semantik • Verband, Bank ... • interne Differenzierungen • Prä- / Postkoordination • Jugend - Arbeitslosigkeit ?? TB TC TA

BSP: Heterogene Systeme • bloße Term-Weitergabe an andere Datenbanken wäre inadäquat • Verfehlung des wirklichen Suchziels • nutzlose Vergrößerung der Treffermenge • analog bei Mehrsprachigkeit • bloßes Übersetzen reicht nicht aus • Sprach- bzw. Kultur-spezifische Semantik muß auch hier berücksichtigt werden • Child discipline • Cognition • Double bind interaction • Mind • Perception • Sensation ?? TB TC TA

Heterogenität: Lösungsansätze • Intellektuelle Verfahren • Von Fachleuten erstellte Module ("Konkordanzen"), die uni- oder bi-direktional jeweils zwei Thesauri (1:1 oder n:m) aufeinander abbilden • kostenintensiv in Aufbau und Wartung • Quantitativ-Statistische Verfahren • Co-Occurence Analysis, Cond. Prob. • Neural Networks • umfangreiche Datenbasis notwendig • prinzipiell wartungsarm, aber • Datenbasis-abhängig • Scheinkorrelationen • intellektuelle Überarbeitung unverzichtbar: semi-automatische Verfahren Thesaurus A Term a1 Term a2 Term a3 ... ... ... Thes. B Term b1 Term b2 Term b3 ... ... Konk. AB Relation Relation Relation ... Output Term B Thesaurus A  Input Layer Hidden Layer

Heterogenität: Intellektuelle Zuordnung • Equivalent ( männlichkeit = männlichkeit ) • Related ( lernprozess ^ lernen ) • Broader Term • mensch > menschliche natur • Narrower Term • lernerfolg < lernen • jeweils auch AND / OR - verknüpft • jeweils dreistufige Relevanz • hoch, mittel, gering SWDrelation relevanceZPID

Heterogenität: Statistik • Voraussetzung: umfangreiche Datenbasis, die Beziehungen zwischen Thesauri ermöglicht (>50.000) • Parallel-Korpora / Parallel-Verschlagwortung • Ergebnis: Korrelationsmatrix zwischen den Termen aus Thesaurus A und Thesaurus B • eingesetzt ebenfalls als Gewichts-Vektoren für die automatische Interpretation als Konkordanz-Tabelle Thes. A Term a1 Term a2 Term a3 ... ... ... Thes. B Term b1 Term b2 Term b3 ... ... ... Dokumente Doc 1 Doc 2 Doc 3 ... ... Doc n Conditional Probability Neural Networks

Probleme automatischer Verfahren • keine Spezifizierung der Relationsart • nicht geeignet zur 1:1 - Abbildung, Ergebnisse sind von der Art n:m (Zuordnung 'Semantischer Räume') • abhängig vom Input-Material • Parallel-Korpus ist meist nicht repräsentativ, sondern eher kleine Schnittmenge der Wissensgebiete • führt zu Scheinkorrelationen • Testkonstruktion – Ausländer • Gesundheit - Altern • Berufliche Reintegration – Rückenschmerzen • Kombinationen, die im Material selten sind, können trotzdem hochrelevante Beziehungen repräsentieren • kein Problem für P(w|x) • Neural Networks lernen hier kaum aƒ

Ansatz: Konkordanzen ZPIDrelation relevanceSWD Bidirektionale Konkordanzen zwischen allen beteiligten Thesauri Thes. A Term a1 Term a2 Term a3 ... ... ... Thes. B Term b1 Term b2 Term b3 ... ... ... Dokumente Doc 1 Doc 2 Doc 3 ... ... Doc n

Probleme bei Konkordanzen Thesauri werden permanent verändert / erweitert / umstrukturiert Thesaurus A Term a1 Term a2 Term a3 ... ... ... Thes. B Term b1 Term b2 Term b3 ... ... Konk. AB Relation Relation Relation ... Verschlagwortung ist permanente intellektuelle Arbeit

Vielen Dank für Ihre Aufmerksamkeit! Semantische Heterogenitätbei datenbankübergreifenden Recherchen Thesaurus A Term a1 Term a2 Term a3 ... ... ... Thes. B Term b1 Term b2 Term b3 ... ... Konk. AB Relation Relation Relation ...

Semantische Heterogenität bei datenbankübergreifenden Recherchen