1 / 30

Thomas Fober

Datenbankgestützte Risikoidentifikation, -systematisierung und -bewertung auf Basis umgangssprachlicher Anwenderberichte zu Vorkommnissen mit Medizinprodukten Informationstechnische Problemfelder und Lösungsansätze. Thomas Fober. Abitur im Jahr 2000, anschließend Zivildienst

venice
Télécharger la présentation

Thomas Fober

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Datenbankgestützte Risikoidentifikation, -systematisierung und -bewertung auf Basis umgangssprachlicher Anwenderberichte zu Vorkommnissen mit MedizinproduktenInformationstechnische Problemfelder und Lösungsansätze Thomas Fober

  2. Abitur im Jahr 2000, anschließend Zivildienst • WS 2001/02 – WS 2006/07: Studium der Informatik mit Nebenfach Betriebswirtschaftslehre an der Universität Dortmund • seit Mai 2007 wissenschaftlicher Mitarbeiter am Fachbereich Mathematik und Informatik der Philipps-Universität Marburg • Promotion in einem interdisziplinären Projekt mit dem Fachbereich Pharmazie: Verfahren zur Analyse von Proteinbindetaschen

  3. Pharmakovigilanz • Beobachtung von sich auf dem Markt befindlichen Arzneimitteln • 01. Oktober 1957 – 27. November 1961: Contergan als (rezeptfreies) Beruhigungs- und Schlafmittel vertrieben • hoher Anteil aller beobachteten Schädigungen ungeborenen Lebens im Zusammenhang mit der Einnahme von Contergan • weiterhin von hoher Aktualität: • Trasylol (erhöhte Sterblichkeit), • Prexige(Leberschäden) • Acomplia(erhöhtes Selbstmordrisiko) • Avandia (erhöhtes Herzinfarktrisiko)

  4. Vorgehensweise zur Risikoidentifikation • Sammeln von MeldungenzuVorkommnissenmitMedizinprodukten • systematischeErassungschwierig; enormeAnzahl an Vorkommnissen • dieseMeldungenkönnenverrauschtsein und nurwenig Information enthalten • Identifikation von Vorkommnissen, die es Wert sindweiterbetrachtetzuwerden

  5. Daten CREATE TABLE berichte(hersteller VARCHAR (30), name VARCHAR (50), (...),event VARCHAR (2500));  Realizierung nicht optimal Quelle: www.bfarm.de

  6. Probleme (I)  der Anwenderbericht wird unverarbeitet in der Datenbank abgelegt • SELECT event FROM berichteWHERE name = “Aspirin“liefert eine Menge von Anwenderberichten  Nachverarbeitung des Suchergebnisses • SELECT name FROM berichteWHERE event = “starkes Schwindelgefühl“liefert eine leere Menge  Suche nach Schlüsselwörtern im Anwenderbericht notwendig(contains / like)

  7. Probleme (II) • Verarbeitung von Text in einem post-processing Schritt möglich • Suche nach Schlüsselwörtern ebenso möglich aber: • Anwenderbericht wird mehrfach zurückgegeben  mehrfache Verarbeitung des selben Berichts • im umgangssprachlichen Text sind Schlüsselwörter nicht in der Grundform enthalten exakte Suche nach Schlüsselwörtern daher unmöglich / ineffizient • Data Mining Verfahren erfordern vektorielle Repräsentation

  8. Annahme: Menge der relevanten Schlüsselwörter bekannt

  9. Mögliche Lösung • Verarbeitung des Nutzerberichts bei Eingang • Speicherung relevanter Information in relationaler Datenbank CREATE TABLE berichte((...),event_1 DECIMAL(2,2), event_2 BOOLEAN, (...) event_N BOOLEAN); Quelle: www.bfarm.de

  10. Datenbank

  11. Extraktion relevanter Information (I) • gegeben geordnete Mmöglicher Vorkommnisse und Bericht t • gibt es einen Index i, so dass ti...ti+m-1 = ev Nach Medikamenteinnahme trat Bluthochdruck ein. 0 1 0 a a b a b a 0 1 2 3 b b

  12. Nutzerbericht ist umgangssprachlich • Fehlertoleranz notwendig, Betrachtung umschließender Wörter • Levenshtein Distanz – wie viele Editieroperationen sind notwendig um Wort a in Wort b zu transformieren Kopfschmerz |||| | Kopfweh Seit dem Medikationsbeginn Dauerschwindel, trockener Husten, teilweise massive Atemprobleme wie bei einer schwerer Bronchitis, zeitweise Sehstörungen verbunden mit brenenden Augen. Verstärkte Probleme mit dem Bewegungsapparat. 0 0 0 Quelle: www.sanego.de • Fehler • nur als Paar sinnvoll s = 5 / 11 s = 5 · cM + 6· cMM Schwindel – schwindelig – Vertigo – Gleichgewichtsstörung

  13. Transformation (I) • Stemming – automatische Zurückführung eines Wortes auf seinen Wortstamm; z.B. Sehstörungen  Sehstörung Porter-Stemmer-Algorithmus: Zählen von Vokal-Konsonant Kombinationen und Anwendung vordefinierter Regeln • Lemmatization – automatische Zurückführung eines Wortes auf seine Zitierform (NLP) Lammatizer.org (open source Projekt): Vorteil (?) gegenüber Stemming, da vollständige morphologische Analyse durchgeführt wird Schwindel – schwindelig – Vertigo – Gleichgewichtsstörung

  14. Transformation (II) • Dictonary – zur Übersetzung von Fachtermini und zur Begriffsklärung; z.B. Schwindel  Vertigo Schwindel: Gleichgewichtsstörung Irreführung • Parsing – zum Auffinden der Beziehung zwischen Wörtern in einem Satz; z.B. starke Kopfschmerzen trockener Husten brennende Augen

  15. Extraktion relevanter Information Seit dem Medikationsbeginn Dauerschwindel, trockener Husten, teilweise massive Atemprobleme wie bei einer schwerer Bronchitis, zeitweise Sehstörungen verbunden mit brenenden Augen. Verstärkte Probleme mit dem Bewegungsapparat. Seit dem Medikationsbeginn Dauerschwindel [trockener Husten] [teilweise massive Atemprobleme] wie bei einer [schwerer Bronchitis] [zeitweise Sehstörungen] verbunden mit [brenenden Augen] [Verstärkte Probleme mit dem Bewegungsapparat] Parsing Quelle: www.sanego.de Filter Medikationsbeginn Dauerschwindel, [trockener Husten] [teilweise massive Atemprobleme] [schwerer Bronchitis] [zeitweise Sehstörungen] verbunden [brenenden Augen] [Verstärkte Probleme] Bewegungsapparat Medikationsbeginn Dauerschwindel, [trocken Husten] [teilweise massiv Atemproblem] [schwer Bronchitis] [zeitweise Sehstörung] verbunden [brennen Augen] [stark Problem] Bewegungsapparat Grundform Dictonaryrelev. Wörter Schwindel Reizhusten Atemproblem Bronchitis Sehstörung (...)

  16. Verwendung der Datenbank • ein Arzneimittel / Wirkstoff / Charge kommt mehrfach in der DB vor • Ziel ist es potentielle Gefahren eines Arzneimittels zu identifizieren • weist ein Nutzerbericht eines Arzneimittels eine Menge an Gefährdungen aus, melde Arzneimittel als Problem  Nein! • ein negativer Bericht unter sehr vielen Positiven deutet nicht auf ein Problem mit einem Arzneimittel hin • Kombination aller Zeilen die ein bestimmtes Arzneimittel repräsentieren  Wahrscheinlichkeiten für bestimmte Vorkommnisse

  17. Bestimmung von Wahrscheinlichkeiten SELECT SUM(ev_i) AS sum1 FROM berichte SELECT SUM(ev_1, ..., ev_N) AS sum2 FROM berichte SELECT SUM(ev_i) AS sum3 FROM berichteWHERE name = drug_j SELECT COUNT(*) AS sum4FROM berichteWHERE name = drug_j

  18. Identifikation von Risiken • (relatives Risiko) • (proportionales Verhältnis) • (Quotenverhältnis)  Beziehung zwischen Nebenwirkung und Arzneimittel

  19. Beispiel

  20. Beispiel • Arzneimittel A verursacht bei 90% der Patienten Vorkommnis a • 10 % der Patienten die A nicht einnehmen berichten ebenfalls über a • A wird in i.d.R. in Kombination mit B verabreicht: • 90% der Patienten die A einnehmen nehmen auch B ein • 1% von nicht A einnehmenden Patienten nehmen B ein • es wurde nie beobachtet, dass B das Vorkommnis a verursacht  Simpson Paradoxon

  21. Beispiel • A und B sind binäre Variablen, A = 1, wenn A eingenommen wurde, 0 sonst • Anwendung der Maximum-LikelihoodMethode zu Bestimmung der  und (erwartete Veränderung, wenn A (B) von 0 auf 1 gesetzt wird und B (A) konstant gehalten wird)

  22. Klassifikation • Trainingsdaten (z.B. akute reversible Störung vs. reversible aber signifikante Störung)  überwachtes Lernen

  23. Clustering • Trainingsdaten nicht benötigt, Anzahl der Cluster notwendig  unüberwachtes Lernen

  24. Kategorisierung des Gefährdungsgrades • akute reversible Störung (z.B. zeitlich begrenztes brennen der Augen, Müdigkeit, ...) • reversible aber signifikante Störung (z.B. Arbeitsunfähigkeit) • reversibler lebensbedrohlicher Zustand; medizinischer Notfall • irreversible Schädigung • Tod

  25. Visualisierung • Multidimensionale Skalierung • Hauptkomponentenanalyse (PCA)

  26. Annahme: Menge der relevanten Schlüsselwörter nicht bekannt

  27. Mögliche Lösung • Verarbeitung aller Nutzerberichte in einem Schritt • Extraktion relevanter Vorkommnisse • Abbildung auf Feature Vektor Bag-of-words Ansatz • Informationsverlust • kein Bias Quelle: www.bfarm.de

  28. Extraktion von Schlüsselwörtern Seit dem Medikationsbeginn Dauerschwindel, trockener Husten, teilweise massive Atemprobleme wie bei einer schwerer Bronchitis, zeitweise Sehstörungen verbunden mit brenenden Augen. Verstärkte Probleme mit dem Bewegungsapparat. Seit dem Medikationsbeginn Dauerschwindel [trockener Husten] [teilweise massive Atemprobleme] wie bei einer [schwerer Bronchitis] [zeitweise Sehstörungen] verbunden mit [brenenden Augen] [Verstärkte Probleme mit dem Bewegungsapparat] Parsing Quelle: www.sanego.de Filter Medikationsbeginn Dauerschwindel, [trockener Husten] [teilweise massive Atemprobleme] [schwerer Bronchitis] [zeitweise Sehstörungen] verbunden [brenenden Augen] [Verstärkte Probleme] Bewegungsapparat Medikationsbeginn Dauerschwindel, [trocken Husten] [teilweise massiv Atemproblem] [schwer Bronchitis] [zeitweise Sehstörung] verbunden [brennen Augen] [stark Problem] Bewegungsapparat Grundform Dictonary E (relevante Wörter) Dauerschwindel [Reizhusten] [massiv Atemproblem] [schwer Bronchitis] Sehstörung [brennend Auge] Bewegungsapparat Selektion

  29. Zusammenfassung • unstrukturierte Daten können nur schlecht mit klassischen informationstechnischen Verfahren verarbeitet werden • im Fall von unformatierten Texten ist die Abbildung auf vektorielle Repräsentation möglich (NLP / approximative Suche) • Verarbeitung der so extrahierten Information kann ebenso zu Problemen führen • Simpson Paradoxon • Effizienz der Verfahren • Data Mining Verfahren erlauben es Information aus sehr großen Datenbanken zu extrahieren

  30. Danke für Ihre Aufmerksamkeit

More Related