300 likes | 461 Vues
Datenbankgestützte Risikoidentifikation, -systematisierung und -bewertung auf Basis umgangssprachlicher Anwenderberichte zu Vorkommnissen mit Medizinprodukten Informationstechnische Problemfelder und Lösungsansätze. Thomas Fober. Abitur im Jahr 2000, anschließend Zivildienst
E N D
Datenbankgestützte Risikoidentifikation, -systematisierung und -bewertung auf Basis umgangssprachlicher Anwenderberichte zu Vorkommnissen mit MedizinproduktenInformationstechnische Problemfelder und Lösungsansätze Thomas Fober
Abitur im Jahr 2000, anschließend Zivildienst • WS 2001/02 – WS 2006/07: Studium der Informatik mit Nebenfach Betriebswirtschaftslehre an der Universität Dortmund • seit Mai 2007 wissenschaftlicher Mitarbeiter am Fachbereich Mathematik und Informatik der Philipps-Universität Marburg • Promotion in einem interdisziplinären Projekt mit dem Fachbereich Pharmazie: Verfahren zur Analyse von Proteinbindetaschen
Pharmakovigilanz • Beobachtung von sich auf dem Markt befindlichen Arzneimitteln • 01. Oktober 1957 – 27. November 1961: Contergan als (rezeptfreies) Beruhigungs- und Schlafmittel vertrieben • hoher Anteil aller beobachteten Schädigungen ungeborenen Lebens im Zusammenhang mit der Einnahme von Contergan • weiterhin von hoher Aktualität: • Trasylol (erhöhte Sterblichkeit), • Prexige(Leberschäden) • Acomplia(erhöhtes Selbstmordrisiko) • Avandia (erhöhtes Herzinfarktrisiko)
Vorgehensweise zur Risikoidentifikation • Sammeln von MeldungenzuVorkommnissenmitMedizinprodukten • systematischeErassungschwierig; enormeAnzahl an Vorkommnissen • dieseMeldungenkönnenverrauschtsein und nurwenig Information enthalten • Identifikation von Vorkommnissen, die es Wert sindweiterbetrachtetzuwerden
Daten CREATE TABLE berichte(hersteller VARCHAR (30), name VARCHAR (50), (...),event VARCHAR (2500)); Realizierung nicht optimal Quelle: www.bfarm.de
Probleme (I) der Anwenderbericht wird unverarbeitet in der Datenbank abgelegt • SELECT event FROM berichteWHERE name = “Aspirin“liefert eine Menge von Anwenderberichten Nachverarbeitung des Suchergebnisses • SELECT name FROM berichteWHERE event = “starkes Schwindelgefühl“liefert eine leere Menge Suche nach Schlüsselwörtern im Anwenderbericht notwendig(contains / like)
Probleme (II) • Verarbeitung von Text in einem post-processing Schritt möglich • Suche nach Schlüsselwörtern ebenso möglich aber: • Anwenderbericht wird mehrfach zurückgegeben mehrfache Verarbeitung des selben Berichts • im umgangssprachlichen Text sind Schlüsselwörter nicht in der Grundform enthalten exakte Suche nach Schlüsselwörtern daher unmöglich / ineffizient • Data Mining Verfahren erfordern vektorielle Repräsentation
Annahme: Menge der relevanten Schlüsselwörter bekannt
Mögliche Lösung • Verarbeitung des Nutzerberichts bei Eingang • Speicherung relevanter Information in relationaler Datenbank CREATE TABLE berichte((...),event_1 DECIMAL(2,2), event_2 BOOLEAN, (...) event_N BOOLEAN); Quelle: www.bfarm.de
Extraktion relevanter Information (I) • gegeben geordnete Mmöglicher Vorkommnisse und Bericht t • gibt es einen Index i, so dass ti...ti+m-1 = ev Nach Medikamenteinnahme trat Bluthochdruck ein. 0 1 0 a a b a b a 0 1 2 3 b b
Nutzerbericht ist umgangssprachlich • Fehlertoleranz notwendig, Betrachtung umschließender Wörter • Levenshtein Distanz – wie viele Editieroperationen sind notwendig um Wort a in Wort b zu transformieren Kopfschmerz |||| | Kopfweh Seit dem Medikationsbeginn Dauerschwindel, trockener Husten, teilweise massive Atemprobleme wie bei einer schwerer Bronchitis, zeitweise Sehstörungen verbunden mit brenenden Augen. Verstärkte Probleme mit dem Bewegungsapparat. 0 0 0 Quelle: www.sanego.de • Fehler • nur als Paar sinnvoll s = 5 / 11 s = 5 · cM + 6· cMM Schwindel – schwindelig – Vertigo – Gleichgewichtsstörung
Transformation (I) • Stemming – automatische Zurückführung eines Wortes auf seinen Wortstamm; z.B. Sehstörungen Sehstörung Porter-Stemmer-Algorithmus: Zählen von Vokal-Konsonant Kombinationen und Anwendung vordefinierter Regeln • Lemmatization – automatische Zurückführung eines Wortes auf seine Zitierform (NLP) Lammatizer.org (open source Projekt): Vorteil (?) gegenüber Stemming, da vollständige morphologische Analyse durchgeführt wird Schwindel – schwindelig – Vertigo – Gleichgewichtsstörung
Transformation (II) • Dictonary – zur Übersetzung von Fachtermini und zur Begriffsklärung; z.B. Schwindel Vertigo Schwindel: Gleichgewichtsstörung Irreführung • Parsing – zum Auffinden der Beziehung zwischen Wörtern in einem Satz; z.B. starke Kopfschmerzen trockener Husten brennende Augen
Extraktion relevanter Information Seit dem Medikationsbeginn Dauerschwindel, trockener Husten, teilweise massive Atemprobleme wie bei einer schwerer Bronchitis, zeitweise Sehstörungen verbunden mit brenenden Augen. Verstärkte Probleme mit dem Bewegungsapparat. Seit dem Medikationsbeginn Dauerschwindel [trockener Husten] [teilweise massive Atemprobleme] wie bei einer [schwerer Bronchitis] [zeitweise Sehstörungen] verbunden mit [brenenden Augen] [Verstärkte Probleme mit dem Bewegungsapparat] Parsing Quelle: www.sanego.de Filter Medikationsbeginn Dauerschwindel, [trockener Husten] [teilweise massive Atemprobleme] [schwerer Bronchitis] [zeitweise Sehstörungen] verbunden [brenenden Augen] [Verstärkte Probleme] Bewegungsapparat Medikationsbeginn Dauerschwindel, [trocken Husten] [teilweise massiv Atemproblem] [schwer Bronchitis] [zeitweise Sehstörung] verbunden [brennen Augen] [stark Problem] Bewegungsapparat Grundform Dictonaryrelev. Wörter Schwindel Reizhusten Atemproblem Bronchitis Sehstörung (...)
Verwendung der Datenbank • ein Arzneimittel / Wirkstoff / Charge kommt mehrfach in der DB vor • Ziel ist es potentielle Gefahren eines Arzneimittels zu identifizieren • weist ein Nutzerbericht eines Arzneimittels eine Menge an Gefährdungen aus, melde Arzneimittel als Problem Nein! • ein negativer Bericht unter sehr vielen Positiven deutet nicht auf ein Problem mit einem Arzneimittel hin • Kombination aller Zeilen die ein bestimmtes Arzneimittel repräsentieren Wahrscheinlichkeiten für bestimmte Vorkommnisse
Bestimmung von Wahrscheinlichkeiten SELECT SUM(ev_i) AS sum1 FROM berichte SELECT SUM(ev_1, ..., ev_N) AS sum2 FROM berichte SELECT SUM(ev_i) AS sum3 FROM berichteWHERE name = drug_j SELECT COUNT(*) AS sum4FROM berichteWHERE name = drug_j
Identifikation von Risiken • (relatives Risiko) • (proportionales Verhältnis) • (Quotenverhältnis) Beziehung zwischen Nebenwirkung und Arzneimittel
Beispiel • Arzneimittel A verursacht bei 90% der Patienten Vorkommnis a • 10 % der Patienten die A nicht einnehmen berichten ebenfalls über a • A wird in i.d.R. in Kombination mit B verabreicht: • 90% der Patienten die A einnehmen nehmen auch B ein • 1% von nicht A einnehmenden Patienten nehmen B ein • es wurde nie beobachtet, dass B das Vorkommnis a verursacht Simpson Paradoxon
Beispiel • A und B sind binäre Variablen, A = 1, wenn A eingenommen wurde, 0 sonst • Anwendung der Maximum-LikelihoodMethode zu Bestimmung der und (erwartete Veränderung, wenn A (B) von 0 auf 1 gesetzt wird und B (A) konstant gehalten wird)
Klassifikation • Trainingsdaten (z.B. akute reversible Störung vs. reversible aber signifikante Störung) überwachtes Lernen
Clustering • Trainingsdaten nicht benötigt, Anzahl der Cluster notwendig unüberwachtes Lernen
Kategorisierung des Gefährdungsgrades • akute reversible Störung (z.B. zeitlich begrenztes brennen der Augen, Müdigkeit, ...) • reversible aber signifikante Störung (z.B. Arbeitsunfähigkeit) • reversibler lebensbedrohlicher Zustand; medizinischer Notfall • irreversible Schädigung • Tod
Visualisierung • Multidimensionale Skalierung • Hauptkomponentenanalyse (PCA)
Annahme: Menge der relevanten Schlüsselwörter nicht bekannt
Mögliche Lösung • Verarbeitung aller Nutzerberichte in einem Schritt • Extraktion relevanter Vorkommnisse • Abbildung auf Feature Vektor Bag-of-words Ansatz • Informationsverlust • kein Bias Quelle: www.bfarm.de
Extraktion von Schlüsselwörtern Seit dem Medikationsbeginn Dauerschwindel, trockener Husten, teilweise massive Atemprobleme wie bei einer schwerer Bronchitis, zeitweise Sehstörungen verbunden mit brenenden Augen. Verstärkte Probleme mit dem Bewegungsapparat. Seit dem Medikationsbeginn Dauerschwindel [trockener Husten] [teilweise massive Atemprobleme] wie bei einer [schwerer Bronchitis] [zeitweise Sehstörungen] verbunden mit [brenenden Augen] [Verstärkte Probleme mit dem Bewegungsapparat] Parsing Quelle: www.sanego.de Filter Medikationsbeginn Dauerschwindel, [trockener Husten] [teilweise massive Atemprobleme] [schwerer Bronchitis] [zeitweise Sehstörungen] verbunden [brenenden Augen] [Verstärkte Probleme] Bewegungsapparat Medikationsbeginn Dauerschwindel, [trocken Husten] [teilweise massiv Atemproblem] [schwer Bronchitis] [zeitweise Sehstörung] verbunden [brennen Augen] [stark Problem] Bewegungsapparat Grundform Dictonary E (relevante Wörter) Dauerschwindel [Reizhusten] [massiv Atemproblem] [schwer Bronchitis] Sehstörung [brennend Auge] Bewegungsapparat Selektion
Zusammenfassung • unstrukturierte Daten können nur schlecht mit klassischen informationstechnischen Verfahren verarbeitet werden • im Fall von unformatierten Texten ist die Abbildung auf vektorielle Repräsentation möglich (NLP / approximative Suche) • Verarbeitung der so extrahierten Information kann ebenso zu Problemen führen • Simpson Paradoxon • Effizienz der Verfahren • Data Mining Verfahren erlauben es Information aus sehr großen Datenbanken zu extrahieren