1 / 28

Spracherkennung unter schwierigen Bedingungen

Ideale Bedingungen. Deutlich und mit normaler, nat

demitrius
Télécharger la présentation

Spracherkennung unter schwierigen Bedingungen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. Spracherkennung unter schwierigen Bedingungen Natürlichsprachliche Interfaces

    2. Ideale Bedingungen Deutlich und mit normaler, natürlicher Stimme sprechen Möglichst Dialektfrei, keine Umgangssprache Beigelegtes Headset verwenden Immer das Mikrofon verwenden, welches beim Training verwendet wurde Sprechgarnitur immer auf die selbe Weise tragen, 2 cm seitlich vom Mund, keine Berührungen mit Haut oder Haaren Akustisches Umfeld muss gleich sein, wie bei der Aufnahme (Halligkeit und Nebengeräusche) Essen, trinken und rauchen sie nicht beim Diktieren Bei Erkältung warten, bis diese abgeklungen ist

    4. Übersicht Mikrofone Erschwerende Bedingungen Lösungsmöglicheiten für eine robuste Spracherkennung Aussprachestörungen

    5. Mikrofoncharakteristiken Kugelcharakteristik Mikrofon ohne spezifische Richtcharakteristik. Es ist für Schallwellen aus allen Richtungen gleich empfindlich. Niere (Kardioid, Superkardioid, Hyperkardioid) Mikrofon mit Richtcharakteristik, bei der der Schall vorzugsweise von vorne aufgenommen wird. Schall, der von hinten auf das Mikrofon auftrifft, wird ausgeblendet. Acht-Charakteristik Richtcharakteristik eines Mikrofons in Form einer liegenden Acht, bei der der Schall vorzugsweise aus zwei gegenüberliegenden Richtungen aufgenommen wird. Schall aus den anderen beiden Richtungen, oder Schall, der von unten oder oben auf das Mikrofon auftrifft, wird ausgeblendet. Keule Mikrofon mit starker Richtcharakteristik, bei dem der Schall vorzugsweise von vorne und kaum von der Seite aufgenommen wird. Schall, der von hinten auf das Mikrofon auftrifft, wird nur wenig ausgeblendet.

    6. Abstrahlwinkel der Stimme

    7. Aufstellungsmöglichkeiten Headset Ein Nahbesprechungs-Mikrofon wird dicht etwas seitlich vom Mund platziert getragen Wird meist kombiniert mit einer aktiven Rauschunterdrückung Kabel kann Stören und die Nähe zum Mund kann Störgeräusche verursachen Einbaumikrofone z.B. im Monitor oder in der Tastatur Empfindlich für Störgeräusche Sind weit entfernt vom Sprecher (Richtcharakteristik) Störgeräusche auch von der direkten Umgebung (z.B. Tastatur) Kabel kann Stören Einbau-Mikrofone im Computer Eignen sich nicht sehr gut, da sie weit entfernt aufgestellt werden Sind von vielen Störgeräuschen umgeben

    8. Lavalier-Mikrofone (Mikrofonklips) Nahbesprechungs-Mikrofon, wird direkt am Pullover getragen Haben ungefähr die selben Eigenschaften wie Headsets Desktop Desktop-Mikrofone werden ca. 15 cm entfernt mit Richtung zum Sprecher neben dem Monitor platziert aufgestellt Funktionieren gut, aber nur in ruhigen Räumen Ohr-Mikrofone Werden in das Ohr gesteckt mit Richtung zum Mund Funktionieren ganz gut, aber nicht so gut wie Nahbesprechungs-Mikrofone Kabel kann Stören Hand-held Hand-Held Mikrofone nehmen wenig Störgeräusche auf Müssen ca. 10 cm vom Mund platziert werden, eignet sich für einige Anwendungen nicht so gut Handset Sehen aus wie Telefone und sind ganz gut geeignet

    9. Bauarten von Mikrofonen

    10. Erschwerende Bedingungen

    11. Eingangspegel der Stimme Variiert von Aussage zu Aussage und auch innerhalb einer Aussage Abhängig von der Sprech-Variation (normal, geflüstert, geschrieen) Abhängig von der Entfernung zum Mikrofon Abhängig von der Ausrichtung des Mikrofons Normalisierung des Sprachsignals funktioniert nicht, da der Eingangspegel ein Langzeitmerkmal des Sprachsignals ist

    12. Störgeräusche Regelmäßige Hintergrundgeräusche können beim Training mit in das HMM aufgenommen werden (Computerlüfter, Straßenlärm) dürfen sich beim Training nicht von den Störgeräuschen bei der Anwendung unterscheiden Unregelmäßige Hintergrundgeräusche wie Türen-Knallen oder Tastaturgeräusche verursachen Probleme Störungen durch andere Sprecher Menschen können einzelne Stimmen aus einer Menschenmenge heraushören (Cocktailpartyeffekt) Spracherkennungsmodell in der Regel nur für eine einzelne Stimme ausgelegt Raumakustik und Reflexionen Reflexionen können als linearer Filter modelliert werden, in dem die Geometrie des Raumes, das Material und die Position des Sprechers dargestellt werden Aufnahmevorrichtung Bei der Verwendung verschiedener Mikrofone ändert sich sie allgemeine Transferfunktion Feedback der synthetischen Sprachausgabe

    13. Sprecher spezifische Probleme Unterschiede in der Physiologie des Vokaltraktes Unterschiede in der Länge und der Form des Vokaltraktes Formanten der männlichen Stimme tiefer als die von Frauen und Kindern Verschiedene Sprechstile normal, langsam, schnell, geschrien

    14. Verständlichkeit

    15. Hörfläche des Menschen

    16. Frequenzbereiche der Phoneme

    17. Lösungs-Möglichkeiten für eine robuste Spracherkennung

    18. Modelle für die Abdeckung von Nicht-Sprachlaute (garbage models) im Erkennungssystem DuDeutsch

    19. Active Noise Cancellation (ANC) Zwei Mikrofone im Headset kommen zum Einsatz, eines Nimmt die Sprache mit dem Hintergrundgeräusch auf und eines nimmt nur das Hintergrundgeräusch auf. Eines der beiden Signale wird in der Phase gedreht. Beide Signale werden wieder gemischt, woraufhin sich die beiden Gegenphasigen Signale auslöschen. Übrig bleibt nur das Sprachsignal

    20. Mikrofonarray

    21. Weitere Das Störgeräusch wird einmalig isoliert aufgezeichnet und später vom Signal wieder abgezogen (Noiseprint) Die Normalisierung des Verhältnisses von Signal- zu Rauschleistung in den einzelnen Frequenzbändern. Normalisierung des Hintergrundpegels. Geräuschpegel wird in Sprechpausen automatisch abgesenkt Modellierung der auditiven Schallverarbeitung mit Filtern und Merkmalsvektoren Videoinformation wird mit dem Sprachsignal synchronisiert und die artikulatorischen Bewegungen mit dem Sprachsignal abgeglichen Viele weitere Lösungsansätze

    22. Aussprachestörungen Alkoholeinfluss,Hektik, Stress, Ungeduld Kindersprache (Dislalie) Störung der Artikulation, bei der einzelne Laute oder Lautverbindungen fehlen, falsch gebildet oder durch andere ersetzt werden. Stottern der Redefluß ist durch Störungen in der Muskulatur der Artikulations- und Phonationsorgane beeinträchtigt. Es treten Laut- , Silben-, und Wortwiederholungen , Dehnungen und/oder Blockierungen auf. Poltern Sprache und Sprechablauf sind beschleunigt, überhastet, die Artikulation ist undeutlich und verwaschen, Silben und einzelne Wörter werden wiederholt oder auch ausgelassen. Disphonien Heiserkeiteinen, kratziger Hals, Rauhe oder dünne Stimme

    23. Aphasien, Sprachstörungen linguistisch als Beeinträchtigung in den verschiedenen Komponenten des Sprachsystems (Phonologie, Lexikon, Syntax und Semantik) zu verstehen. Dysarthrien, Sprechstörungen Artikulation verlangsamt oder beschleunigt verwaschen und undeutlich explosiv und gepresst sein verzögerter Sprechbeginn unregelmäßige Abbrüche Nasalität durch geschädigte Velum- und Pharynxmuskulatur auftreten. Die oralen Laute verlieren erheblich an Deutlichkeit. Störungen des Phonationsablaufes Stimmklang ist rauh, belegt, gepresst, monoton, müde, kraftlos, zittrig, überhaucht, zu tief oder zu hoch, zu laut oder zu leise, resonanzarm; der Stimmeinsatz kann verzögert sein; es kann zu Stimmabbrüchen kommen. Atmung verkürzte Sprechatemphasen, inspiratorisches Sprechen, hörbare Inspiration, unkoordinierte Sprechatmung, zu hohe Atemfrequenz, Hochatmung und Schnappatmung auf.

    29. Literatur Dickreiter, Michael, „Handbuch der Tonstudiotechnik“ K.G. Saur, München, 6. Auflage 1997 Vieregge, Wilhelm H., „Patho-Symbolphonetik“ Franz Steiner Verlag, Stuttgart, 1996 Bußmann, Hadumod, „Lexikon der Sprachwissenschaft“ Alfed Kröner Verlag, Stuttgart, 3.Auflage 2002

More Related