1 / 25

Thomas Schmidt / Kai Wörner (Projekt Zb):

Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten. Danke. Annette Herkenrath Imme Kuchenbrandt Bernd Meyer Galia Datcheva Annette Schnieder Tülay Sel çuk. Gliederung. Projektantrag und Projektziele

willis
Télécharger la présentation

Thomas Schmidt / Kai Wörner (Projekt Zb):

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  2. Danke Annette Herkenrath Imme Kuchenbrandt Bernd Meyer Galia Datcheva Annette Schnieder Tülay Selçuk Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  3. Gliederung • Projektantrag und Projektziele • Bericht über die Projektarbeit • Daten am SFB • Softwareentwicklung in Projekt Zb • „Rest der Welt“ • Offene Fragen / Ausblick Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  4. Projektanträge • Juli 2000: Projektskizze • Juli 2002: kurzer „Antrag“ im SFB-Antrag • Juli 2003: Antrag im Rahmen der Qualitätsoffensive der UHH Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  5. Projektziele • Überführung/Umstellung  EXMARaLDA • Weiterentwicklung und Anpassung vorhandener Ein- und Ausgabewerkzeuge • „Datenbank“: Verwaltung, Suche, Auswertung von Korpora • Kooperation / Austausch mit anderen Projekten Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  6. Daten am SFB 538 (K2, E5, E3, K5, K1) Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  7. Projekt K2 • Vollständige Überführung „Aufklärungsgespräche“  DEMO • Überführung restlicher Daten im Gange • Synchronisierung Audio / Transkription im Gange  DEMO • Überarbeitetes HIAT-Handbuch (veröffentlicht!) • Keyboard für HIAT / Türkisch / Portugiesisch • Erfassung neuer Daten mit EXMARaLDA Partitur-Editor Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  8. Projekt E5 • Vollständige Überführung „Maulwurfkorpus“ (+ Audio-Digitalisierung) • Überführung von ENDFAS und SKOBI im Gange • Vollständige Überführung HcTT-Daten ( CoMa) • SKOBI: 489 Kommunikationen / 197 Sprecher • ENDFAS: 265 Kommunikationen / 205 Sprecher • Erfassung neuer Daten mit EXMARaLDA Partitur-Editor Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  9. Projekt E3 • Überführung PAIDUS-Daten begonnen • Manuelle Nachbearbeitung: PAIDUS-Editor • Digitalisieren der Aufnahmen • Überführung der bilingualen Daten ab August • Erfassung neuer Daten mit EXMARaLDA Partitur-Editor Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  10. Projekt E3 • Automatische Berechnung der Silbenstruktur • Ausgabe in Spaltennotation („Transkriptbögen“) • Keyboard für Unicode-IPA (nach SIL IPA-Schriftsätzen) Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  11. Projekt K5 • Überführung von HIAT-DOS-Daten abgeschlossen • Erfassung neuer Daten mit Praat und EXMARaLDA Partitur-Editor • Projekt K1 • Überführung von syncWriter-Daten begonnen • Erfassung neuer Daten mit EXMARaLDA Partitur-Editor Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  12. Softwareentwicklung in Z2 • Partitur-Editor • Stylesheets (Demo) • Segmentierung • Kommunikation mit Praat (Demo) • CoMa (Demo) • SQUIRREL • Workflow Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  13. Weiterentwicklung Partitur-Editor: Stylesheets • Parametrisierung automatisierbarer Aufgaben • Ausgabe: Meta-Daten, Spaltennotation, Zeilennotation, Multimediale Formate (SMIL) • Konvertierung (Excel?) • Anlegen von Spuren (HIAT, DIDA) • Formatieren von Spuren (HIAT, DIDA) Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  14. Weiterentwicklung Partitur-Editor: Segmentierung • Segmentieren sprachlicher Einheiten aus implizitiem Markup („Tokenising“) • Voraussetzung für fortgeschrittene Analyse • Parametrisierbarer Algorithmus (Finite State Transducers) • Für HIAT, DIDA, GAT, CHAT Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  15. Weiterentwicklung Partitur-Editor: Kommunikation mit Praat • Praat  Partitur-Editor: Synchronisieren von digitalen Aufnahmen mit der Transkription • Partitur-Editor  Praat: • Rückgriff auf die Aufnahme während des Transkribierens • Phonetische Analysen DEMO Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  16. Nächste Schritte für CoMa • Zuordnung von Transkriptionen und Aufnahmen (digitale Daten) zu den Kommunikationen • Import von Kopfdaten aus EXMARaLDA-Transkriptionen • XPath-basierte Suche • Übergabe von Teilkorpora an Partitur-Editor und SQUIRREL DEMO Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  17. Search and QUery InstRument foR ExmaraLda • Operiert auf CoMa-Teilkorpora • Suche nach: Strings, Regulären Ausdrücken, XPath-Ausdrücken • Suchergebnisse: KWIC-Liste  Transkription  Aufnahme Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  18. Transkribieren imPartitur-Editor EXMARaLDAImportfilter+ manuelle Nachbearbeitung Workflow Neue Daten(Aufnahmen) Alte Daten(HIAT-Dos, syncWriter, …) Daten EXMARaLDATranskription Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  19. METADATEN Workflow Kopfdaten via CoMaImportfilter Eingabe d.Metadaten mit CoMa EXMARaLDATranskription Ausgabe(Partiturnotation, Spaltennotation, …) Segmentierung CoMa-Corpus SegmentierteTranskription Export(Chat, GAT, HIAT-Äußerungslisten) Ausgabe(Partitur, Spalten, Wort/Äußerungslisten, …) Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  20. METADATEN Workflow SegmentierteTranskription CoMa-Corpus Suche über Metadaten CoMa-Teilkorpus(aus Suche/Selektion) Ausgabe(Partitur, Spalten, Wort/Äußerungslisten, …) SQUIRREL (Suche nach sprachl.Phänomenen) Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  21. X-Waves ESF syncWriter SHOEBOX TASX- Annotator ELAN Verbmobil CHILDES REST DER WELT Animal Communication TableTrans MATE Classroom Discourse PRAAT DIDA Partitur- Editor CLAN syncWriter HIAT-DOS dBASE Verbmobil Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  22. Andere Projekte • ELAN (MPI Nijmegen), TASX (Uni Bielefeld), Praat (Uni Amsterdam) • Strukturell ähnliche Datenmodelle („Single timeline, multiple tiers“) • Import- / Exportfunktionalität / Kommunikation Partitur-Editor  Praat • Gemeinsamkeiten / Erweiterungen der Datenmodelle  • Texttechnologische Grundlage • IDS Mannheim (DIDA) • Seit November 2003: Einsatz von EXMARaLDA • CHILDES / Talkbank • Import in EXMARaLDA: automatisch für Einzelkorpora • Export aus EXMARaLDA: Segmentierungsalgorithmus • „Collaborative Commentary“ (Panel LREC 2004) • Text Encoding Initiative • TEI P5: „Time-Based Data Models and the TEI“ Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  23. Einsatz von EXMARaLDA Agder University (Norwegen) ETH Zürich IDS Mannheim FU Berlin GK “Bildungsgangforschung” (Uni Hamburg) HU Berlin National University of Colombia Rice University SFB 632 (Potsdam) Studien CD Linguistik Uni Barcelona Uni Basel Uni Bayreuth Uni Bielefeld Uni Bologna Uni Bonn Uni Chemnitz Uni Dortmund (Uta Quasthoff) Uni Halle Uni Hamburg Uni Heidelberg Uni Karlsruhe Uni Kassel Uni Köln Uni Leipzig Uni Mannheim (Rosemarie Tracy) Uni München Uni Münster Uni Regensburg Uni Saarbrücken Uni Wien University of Southampton Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  24. Offene Fragen 1 • „Mehrsprachige Datenbank“? •  cf. „RelationaleDatenbank“? • Zentrale Verwaltung / Abfrage von Daten? • Client/Server-Architektur? • Relationale Datenstrukturen?  cf. „CHILDES-Datenbank“? • Öffentlich zugängliches Datenarchiv („Multilingual Language Data Exchange System“)? •  „Computergestützte Erfassungs- und • Analysemethoden multilingualer Daten“ Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

  25. Offene Fragen 2 • Werkzeuge • Weiterentwicklung vorhandener Werkzeuge • Annotationswerkzeuge (flache / hierarchische Annotation) • Daten • Neue Projekte • Texttechnologische Grundlagen • Verschiedene zeitbasierte Datenmodelle (EXMARaLDA, TASX, EAF, AG): Harmonisierung und Weiterentwicklung • Methodische Grundlagen • Gesprächsanalyse / Spracherwerbsforschung und computergestützte Methoden • Infrastrukturen • dauerhafte Archivierung von Daten / Pflege von Software Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

More Related