1 / 25

PG 520 Intelligence Service

PG 520 Intelligence Service. Gezielte Suche im Internet. Forschung Praxis. Lehrstuhl für künstliche Intelligenz. Informationen im Internet. Suchmaschinen: Es werden nur Dokumente geliefert, die den Suchbegriff enthalten.

donkor
Télécharger la présentation

PG 520 Intelligence Service

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. PG 520Intelligence Service Gezielte Suche im Internet Forschung Praxis Lehrstuhl für künstliche Intelligenz

  2. Informationen im Internet • Suchmaschinen: • Es werden nur Dokumente geliefert, die den Suchbegriff enthalten. • Die Seiten sind von sehr unterschiedlicher Qualität. • Vorwissen über zuverlässige Seiten und ihre Struktur wird nicht ausgenutzt.

  3. Intelligence Service • Zusammenhänge zwischen Dokumenten: • Firmen wollen ihre Konkurrenz beobachten. • Anleger wollen eine Entwicklung verfolgen. • Bürger wollen wissen, wie es zu einer Entscheidung in der Politik kam. • Direkte Fragebeantwortung: • Innerhalb des Dokuments muss die betreffende Textstelle gefunden werden! Forschungsthema Named Entity Recognition!

  4. Intelligence Service Wie steht es jetzt eigentlich um den Atommüll?

  5. Recherche

  6. Named Entities erkennen 16.Wahlperiode, Drucksache, Antrag Drs-Nr. Typ Fraktion

  7. Named Entities erkennen 16.Wahlperiode, Drucksache, Antrag Drs-Nr. Typ Person

  8. 16.Wahlperiode, 57. Sitzung, 19.10.2006, TOP 5 Überweisung beschlossen 16/2790 16/267 Antrag abgelehnt

  9. Direkte Fragebeantwortung • Der Antrag der FDP zur Entsorgung radioaktiven Abfalls wurde abgelehnt. • Der Antrag der Grünen zur ergebnisoffenen Standortwahl für Endlagerung radioaktiven Mülls wurde an Ausschüsse verwiesen. Für diese Antworten braucht man manuell 7 Stunden – geht es automatisch schneller?

  10. PG-Arbeit • Gezielte Recherche gemäß der Struktur bestimmter Webserver (Suchanfragen) • Indexierung gemäß bestimmter Entitäten:Themen, Personen, Orte, Firmen... • Named Entity Recognition: • Einige Dokumente nach Entitäten annotieren, • maschinell Annotationsregeln lernen • Annotationsregeln anwenden • Informationen zu den Entitäten zusammenstellen

  11. Named Entity Recognition • Ursprung Message Understanding Contest • Fragebeantwortung • Dann: Markierung der Entitäten • Traditionelle NE: Personen, Orte, Firmen • Intelligence Service: Personen, Orte, Firmen, Datum, DrucksachenNr., Fraktionen, etc.

  12. Probleme • Alle möglichen NEs in Listen zu sammeln ist keine perfekte Lösung bzw. nicht immer möglich • Beide Arten der Evidenz beachten: • interne – Merkmale des Wortes an sich • externe – Merkmale des das Wort umgebenden Kontextes • Tom arbeitet bei Mercedes Benz • intern/ extern

  13. Beispiele für interne/externe Evidenz • Intern: • Das Wort enthält Sonderzeichen (reg. Ex.) • Das Wort ist ‘Hans’ • Das Wort enthält das 3-gram ‘ans’ • Extern: • Vor dem Wort steht das Wort ‘Herr’ • Das Wort steht am Satzanfang • Das Wort vor dem Wort hat die Markierung PERSON

  14. NER-Verfahren • Regelbasierte Verfahren • kontextfreie Grammatiken • endliche Automaten • Verfahren des ML • Transformationsbasiertes Regellernen • SVM • Graphenbasiert: HMM -> MEMM -> CRF

  15. Support Vector Machines • Bilden bestseparierende Hyperebene • Lösen somit binäres Klassifikations-problem • Können viele und hochdimensionale Daten verarbeiten • Sind robust gegenüber overfitting • Für NER ist aufgrund mehrerer NEs ein Verbund aus SVMs nötig

  16. Labelsequenz Y Beobachtungs-sequenz X Y1 Y2 Y3 X1 X2 X3 Hidden Markov Models • Hidden Markov Model (HMM) • Generatives (gerichtetes) Modell

  17. Labelsequenz Y Y0 Y1 Y2 Y3 Beobachtungs-sequenz X X1 X2 X3 Maximum Entropy Markov Models • Maximum Entropy Markov Model (MEMM) • Bedingtes (gerichtetes) Modell • Label hängt vom Vorgänger und Beobachtung ab

  18. Labelsequenz Y Y1 Y2 Y3 Beobachtungs-sequenz X X Conditional Random Fields • Conditional Random Fields (CRF) • Bedingtes ungerichtetes Modell • Labelsequenz hängt von Beobachtungs-sequenz ab • Beste Labelsequenz erfüllt die meisten features für Beobachtungssequenz

  19. Anwendung von NER-Verfahren • YALE als grundlegende Lernumgebung • Fast alle Lernverfahren vorhanden • u.a. auch SVM • Problem: NER-Umgebung noch in der Entwicklung begriffen! • Ausgereift: statistische Textanalyse • Statistische Textanalyse beachtet nicht den sequentiellen Charakter des Textes • CRF-Plugin liefert erste Grundlagen für NER

  20. Statistische Textanalyse vs. NER • Statistische Verfahren analysieren Wortvorkommen sowie ihre Anzahl • Text wird in ‘bag of words’ zerlegt • or; is; has; …; politician; …; nuclear; … • Dient zur Klassifikation von Texten • NER benötigt Texte in ursprünglicher Form • mit zusätzlichen Informationen • Preprocessing liefert diese Informationen

  21. Aktuell in YALE vorhanden • CRF-Plugin bietet Preprocessing mit unterschiedlichen Merkmalen • Präfix, Suffix, NGramme, Reguläre Ausdrücke, … • Außerdem: • CRF-Model-Learner • CRF-Model-Applier • Ziel: • modulare, allgemeinnutzbare Preprocessing-Operatoren • Möglichkeit zur Einbindung vieler Lernverfahren • Einsatz von evolutionären Algorithmen zum Lernen des besten Experiment-Setups für versch. NER-tasks

  22. Rahmenterminplan 1. Semester • 1. Seminarphase 08. – 12.10.2007 • Lernverfahren • SVM • MEMM • HMM • CRF • Methoden der Personalisierung von Suchmaschinen • Basistechniken des WWW • Indexierung • XML (RSS) • Werkzeuge der PG • Yale • Google API • CVS • Crawling

  23. Rahmenterminplan 1. Semester • Aufgaben des ersten Semesters • Wahl eines Anwendungsszenarios, Festlegen der Fragen und der NE • Erstellung eines Anfrageplans • Erstellen der Trainingsdatensätze • Experimente mit vorhandenen NER-Verfahren • Ansätze zur Verbesserung der NER • 2. Seminarphase 04. – 08.02.2008 • Zusammentragen der Ergebnisse

  24. Rahmenterminplan 2. Semester • 3. Seminarphase Anfang April 2008 • automatische Thesaurus-Erstellung • automatische Fragebeantwortung • Text-Clustering • Webseiten-Ranking • First-Story Detection • Topic Tracking • u. U. noch andere Themen möglich!

  25. Rahmenterminplan 2. Semester • Aufgaben des zweiten Semesters • Sammeln der Daten (Anfrageplan beachten) • Konkrete Ausnutzung der NER aus erstem Semester • Verbesserung der NER (?) • Ende des zweiten Semesters: • PG Abschlussbericht und -präsentation

More Related