1 / 27

Einsatzmöglichkeiten der Sprachsignalverarbeitung

Einsatzmöglichkeiten der Sprachsignalverarbeitung. Milan SIGMUND , TU Br ü nn , sigmund @ feec.vutbr.cz. Sprach sign a l. Was ist Sprache ?. Akusti s c he For m. Schriftliche F orm. e i n s o der 1. Sign al form. Mat h emati s c he F orm „a“. Sprach sign a l.

Télécharger la présentation

Einsatzmöglichkeiten der Sprachsignalverarbeitung

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn,sigmund@feec.vutbr.cz

  2. Sprachsignal WasistSprache ? AkustischeForm SchriftlicheForm eins oder1 Signalform MathematischeForm „a“

  3. Sprachsignal Sprache aus der technischenSicht Sprache = Sprachsignal (akustischesSignal) daskann man: ► messen ►übertragen ►aufnehmen (archivieren) ►bearbeiten und verarbeiten (auch on-line)

  4. pabs(t) Pm pak(t) AkustischesSignal Abfolge von Luftdruckschwankungen Atmosphärendruck Pm : langsame Schwankungen 960-1050 hPa Schalldruck pak: schnelle Schwankungen 20 μPa-0,1 Pa t [Tage] Absolutdruck: pabs = Pm + pak t [ms] Maßeinheit Pascal 1 Pa = 1 N/m2

  5. AkustischesSignal • man unterscheidet: • ► periodische Klänge • (Musik, Vogelgesang, Wind,....) • ► nichtperiodische Klänge • (Husten, Gewitterdonner,....) • ► Sprache

  6. s(t) A t j T AkustischesSignal ReinerTon s(t) = A sin (2π f t + φ) Parameter wahrgenommen als Amplitude A PeriodeT resp. Frequenzf Phase φ Lautstärke Tonhöhe

  7. AkustischesSignal Audio = „ich höre“ (lateinisch) Infraschall Schall Ultraschall unhörbar hörbar unhörbar 16 Hz 20 000 Hz

  8. AkustischesSignal Hörfläche des menschlichen Gehörs Schallquelle: 140 dB Flugzeug beim Start 120 dB Rockgruppe 80 dB belebteStrasse 70 dB normaleUnterhaltung 50 dB leiseUnterhaltung 30 dB sanftes Flüstern 20 dB Papiergeraschel

  9. Sprache Frequenz [Hz] Bühnensprache 80 – 16 000 Musikinstrument Frequenz [Hz] Alltagssprache 180 – 6 000 Orgel 15 – 16 000 Telefonsprache 300 – 3 400 Klavier 25 – 4 000 Kontrabass 40 – 250 Trompete 150 – 1 100 Fagott 50 – 500 Piccoloflöte 500 – 5 000 AkustischesSignal Frequenzbereiche

  10. Informationsgehalt der Sprache Gesamtinformation in störungsfreiem Sprachsignal: 75 % Inhalt der SpracheWas? 25 % Sprecher: 15 % - Identität Wer? 10 % - Zustand Wie? Zustand Identität Nachricht

  11. Spracheingabe

  12. Spracherkennung - Vokale Vokal „a“im Detail ·     • periodische Signalform ·       • hohe Signalenergie ·       • charakterisiert durch Formanten 

  13. Spracherkennung - Vokale Formanten - lokale Maxima im SpektrumF1 - F7 - Resonanzfrequenzen von den größten Räumen des Vokaltraktes • F1 - Rachenraum F2 - Mundhöhle F3 - Nasenhöhle S(f) F1 F2 F3 f

  14. Spracherkennung - Vokale Vokal F1 [Hz] F2 [Hz] a 800 - 1000 1200 - 1400 e500 – 7001600 - 2100 i300 - 5002100 - 2700 o500 - 700 900 - 1200 u300 - 500 600 - 1000

  15. Spracherkennung Variabilität des Sprachsignals Wort „Signal“ im Zeitbereich (dreimal von einem Sprecher)

  16. Spracherkennung Segmentierung des Sprachsignals Verschiebung Überlappung Segment ~ 20-30ms Hamming-Fenster w(n) = 0,54 - 0,46 cos(2n/N)fürn = 1, 2, ..., N w(n) = 0 sonst N .... Länge eines Segments in Abtastwerten

  17. Spracherkennung Sprachmerkmale: Signalenergie Nulldurchgangsrate s(n) - Sprachsignal N - Segmentlänge (inAbtastwerten) Z= 19

  18. Spracherkennung Zeitverlauf Energie Log Energie Nulldurchgangsrate

  19. Spechererkennung Optimale Merkmale führen durch Sprachsignalverarbeitung direkt zu anatomischen Parametern

  20. Spechererkennung Grundfrequenzder StimmeF0 Merkmal des Sprachsignals:Grundfrequenz der Stimme F0 in Hz Bezogener anatomischer Parameter:Länge der Stimmlippen L in mm

  21. Spechererkennung Werte der Grundfrequenz F0 Normale Sprache 50 – 400 Hz Männer 70 – 160 Hz typischF0=110 Hz Frauen 150 – 280 Hz typischF0=210 Hz Kinder 300 – 400 Hz Extrem – singende weibliche Stimme bisca. 980 Hz

  22. Anwendungen Spracherkennung: ► Akustische Steuerung von Geräten •Alarmstopschalter (ein Wort) • Eingabe der Rufnummer •Lichtsteuerung, … ► Fließende Sprache •Begutachtungen (medizinische, forensische) • Schlüsselworterkennung in Audiodateien • Diskussion bei wichtigen Tagungen, …. Ziel: Diktiermaschine mit Spracheingang

  23. Anwendungen Dialogsysteme: ►Informationen • Fahrplan,Flugplan, Telefonnummer, … ►Übersetzungen • on-line mitHandy, ...

  24. Anwendungen Spechererkennung: ► Verifikation • Wegfahrsperre für Kraftfahrzeuge •telefonischer Bankauftragsdienst ► Identifikation • Analyse von Täterstimmen für forensischen Gebrauch Ziel: Zuverlässigkeit wie Fingerabdruck

  25. Anwendungen Erkennung des Sprecherzustandes: ►Medizinische Untersuchungen • Krankheiten an Sprechorganen (Krebs,...) • Alzheimer, Parkinson,… ►Psychoanalyse (teilweise) • Stress, Depression, Ermüdung • Freude, ... Ziel: automatische Diagnose

  26. Anwendungen Spezielle Analyse (Erkennung): ►Test nach Alkohol vor Autofahren - Dialog überHandy ► Schätzung des IQ bei kleinen Kindern - Analyse des Baby-Weinens ►Lügendetektor - software im Internet ?

  27. Leistungsvergleich TechnischesSystem (PC): ► erkennt Sprecher und weiblich/männlich schneller(40ms) ► erkennt mehr Personen (Mensch ca. 150 Stimmen) ► nutzt Informationen, die Mensch nicht hören kann Gehirn: ► kann eine Stimme aus der Stimmenmischung filtern ► bessere Übersetzung in fremde Sprache ► bessere Rekonstruktion der fehlenden Frequenzen (Telefon, Laptop) ► bessere Rekonstruktion der falschen Wörter (gebrochene Sprache)

More Related