1 / 19

PRATEN MET MENS EN MACHINE

PRATEN MET MENS EN MACHINE. Louis C.W. Pols Leerstoelgroep Fonetische Wetenschappen (IFA) Herengracht 338, 1016 CG Amsterdam Amsterdam Center for Language and Communication (ACLC) / LOT Opleiding Taalwetenschap (Ba/Ma Linguistics) Afdeling / OW-instituut Taal- en Letterkunde

tayten
Télécharger la présentation

PRATEN MET MENS EN MACHINE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. PRATEN MET MENS EN MACHINE Louis C.W. Pols Leerstoelgroep Fonetische Wetenschappen (IFA) Herengracht 338, 1016 CG Amsterdam Amsterdam Center for Language and Communication (ACLC)/LOT Opleiding Taalwetenschap (Ba/Ma Linguistics) Afdeling/OW-instituut Taal- en Letterkunde Faculteit der Geesteswetenschappen (voorheen Letteren) Universiteit van Amsterdam Lezing TUD, do. 15 april 2004 Jaffalaan 5 Fac. Techniek, Bestuur en Management

  2. Overzicht • praten is communiceren via gesproken taal • pratende computers = spraaksynthese • luisterende computers = spraakherkenning • spraaksignaalanalyse software ‘praat’ • 10 M woorden Corpus Gesproken Nederlands • conclusies • informatie over taal- en spraaktechnologie, zie o.a. http://www.taalunieversum.org/tst/ en http://www.fon.hum.uva.nl/ Fac. TBM - TUD

  3. Praten • praten is communiceren, meestal met anderen, voornamelijk via gesproken taal • klanken, woorden, zinnen, grammatica, taal • spreekstijl, stemkwaliteit, tempo, emotie, dialect, taalvaardigheid, beurtgedrag, aarzelingen, versprekingen • woordklemtoon, zinsaccent, frasering • disambigueren • ga naar/Ghana, koninklijke/koleke, kanon, verspringen • Daan zei de baas is te laat  wie is er te laat? Fac. TBM - TUD

  4. luisteraar spreker mens spraaksignaal commun. kanaal spraaksynthese automatische spraakherkenning machine Mens vs. machine menselijke communicatieketen: concept, uiting selecteren, articulatie, spraakgeluid, transmissiekanaal, geluidwaarneming, interpretatie Fac. TBM - TUD

  5. Spraaksynthese • pratende machine = spraaksynthese • database-info, concept, tekst in  spraak uit • evt. taalgeneratie, orthografie • tekstanalyse (drs.; §; TUD; € 10,-; herv gem) • grafeem/foneem conversie (lexicon en regels) extra  /’Ekstra:/ wegnemen  /w’Exne:m@/ • woordklemtoon, zinsaccent, pauzes • prosodie (co-articulatie, F0, duur) • akoestische realisatie (difonen) Fac. TBM - TUD

  6. Demonstratie Fluent Dutch • Fluent Dutch Text-To-Speech • ontwikkeld door A. Dirksen en L. Mehnert • eerst Fluency Speech Technology, Utrecht • toen van Dale Lexicografie, Utrecht o.a. sprekend woordenboek, gesproken e-mail • nu Fluency weer eenmansbedrijf • andere Nederlandse synthesesystemen: IPO, Nijmeegse allofoonsynthese, Polderland, Speechworks RealSpeak, Infovox, NEXTENS Fac. TBM - TUD

  7. Toepassingen spraaksynthese • sprekende computer • info per telefoon (e-mail, banktegoed, koers) • sprekend woordenboek • hulpmiddel voor visueel gehandicapten toetsenbord, polshorloge, thermostaat, etc. • onderdeel van dialoogsysteem (OVIS, IMIX) • miniaturisatie (onleesbare schermpjes) • volledige taal/spraak kennis  perfekte synth. Fac. TBM - TUD

  8. Spraakherkenning • luisterende computer = autom. spraakherk. • woorden herkennen vs. spraakverstaan • geluidsinvoer (microfoon, ADC) • kenmerkrepresentatie (filterwaarden/10 ms) • herk. woordsjablonen (templates, DTW), òf • getrapte herkenning (en evt. interpretatie) • fonemen: HMM phone like units (PLU’s) of ANN • woorden: woordmodellen, norm. uitspraak wrd. • zinnen: taalmodellering (n-gram) Fac. TBM - TUD

  9. 5 Time (s) 2 0

  10. 5-state HMM phone or word model aii = selfloop probability; aij = between state transition prob.; bj(ot ) = observation probability from Wang (1997)

  11. Ranks of words predicted by a trigram language model (from Jelinek, in Furui & Sondhi (1992))

  12. Aspekten van ASH • spreekstijl (woord voor woord, continu) • woordenschat (2 - 60.000 woorden, onbeperkt) • sprekerpopulatie (een, meerdere, dialect, taal) • training (spreker en vocab. (on)afh., spr. adaptief) • dialoogstructuur (simpel  pseudo-natuurlijk) • robuustheid in gebruik (spreker, micr., omgeving, leeftijd, taalvaardigheid, gespreksonderwerp) • out-of-vocabulary words (OOV) • foutenscore (substitutie, deletie, insertie; begrip) Fac. TBM - TUD

  13. Demonstratie Dragon Naturally Speaking • ontwikkeld door Dragon Dictate, ook Ned. • opgekocht door (nu zelf failliete) L&H, nu Scansoft • sprekerspecifiek (urenlange training) • vlotte invoer, real-time op snelle PC • taalmodel heel belangrijk, evenals training • tekstinvoer naast commando’s • andere systemen voor het Nederlands: • Philips Freespeech • IBM ViaVoice • Scansoft SpeechWorks VoCon Fac. TBM - TUD

  14. Toepassingen van spraakherkenning • dicteersysteem, tekstverwerker • systeemcontrole (industrie, speelgoed, beveiliging, huishouden) • iedere telefoon een terminal • computer assisted language learning (CALL) • hulpmiddelen voor gehandicapten • onderdeel van een dialoogsysteem (OVIS, tel. 0900-9292; IMIX) • spraak naast andere modaliteiten • miniaturisatie (te kleine knopjes) Fac. TBM - TUD

  15. spraaksignaalanalyse • in-huis ontwikkeld software pakket ‘praat’ • wereldwijd verspreid, open source • mogelijkheden voor opname, generatie, weergave, selectie, analyse (spectrum, duur, toonhoogte), manipulatie, segmentatie en labeling, statistiek, etc. • werken met scripts • uitstekende grafische uitvoermogelijkheden • en nog veel meer, zie site praat.org (demo) Fac. TBM - TUD

  16. Corpus Gesproken Nederlands • Vlaams-Nederlands initiatief • 10 Mƒ, 10 M woorden (ca. 1000 uur spraak) • start juni 1998, 5 jaar, 7 releases (audio + annotaties) • allerlei spreekstijlen ook over telefoon, volwassenen, wel varianten ABN geen dialect • t.b.v. taalkundigen, T/S technologie, en anderen • rechten bij NTU (http://www.taalunie.nl/) • voor informatie zie http://lands.let.kun.nl/cgn/ Fac. TBM - TUD

  17. Onderdelen CGN • corpusontwerp en -opbouw • opname en digitalisering • orthografische transcriptie • lemmatisering en (POS) part-of-speech tagging • lexicologische koppeling (CGN lexicon) • brede fonetische transcriptie • signaalkoppeling • syntactische annotatie • prosodische annotatie • exploitatiesoftware COREX Fac. TBM - TUD

  18. Conclusies • menselijke spraakproduktie en -perceptie minstens zo interessant als machinale • spraaktechnologie is niet alleen synth. / herk. spraakcodering, taalherkenning, sprekerverificatie, keyword spotting, document retrieval, vertalen, web avatars, etc. • zeer interdisciplinair vakgebied • veel potentie in toepassingssfeer, maar… • bedankt voor jullie aandacht Fac. TBM - TUD

More Related