1 / 17

Dolov ání informací z řeči – BUT Speech @FIT group

Dolov ání informací z řeči – BUT Speech @FIT group. Honza Černocký BUT S peech@FIT, Brno University of Technology, Czech Republic 10.04.2013. Co d ěláme ?. „Co bylo řečeno“ – rozpoznávání řeči (speech recognition)

stew
Télécharger la présentation

Dolov ání informací z řeči – BUT Speech @FIT group

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dolování informací z řeči – BUT Speech@FIT group Honza Černocký BUT Speech@FIT, Brno University of Technology, Czech Republic 10.04.2013

  2. Co děláme ? • „Co bylo řečeno“ – rozpoznávání řeči(speech recognition) • Celkový přepis – rozpoznávání plynulé řeči s velkým slovníkem (large vocabulary continuous speech recognition LVCSR) • Detekce klíčových slov nebo frází – keyword/keyphrase spotting • „Jakou řečí“ – rozpoznávání jazyka (language identification LID) • „Kdo to řekl“– rozpoznávání mluvčího • Výběr jednoho mluvčího z množiny – identifikace mluvčího – speaker identification • Ověření předpokládané identity – verifikace mluvčího– speaker verification. BUT Speech@FIT group Honza Cernocky 7.4.2011

  3. K čemu je to dobré I: Obrana/bezpečnost BUT Speech@FIT group Honza Cernocky 7.4.2011

  4. K čemu je to dobré II – Call Centra, přednášky BUT Speech@FIT group Honza Cernocky 7.4.2011

  5. Jak to děláme Klasifikace, rozpoznávání, machine learning BUT Speech@FIT group Honza Cernocky 7.4.2011

  6. Potřebujeme data • Stahujeme • Anotujeme • Kupujeme • Nahráváme matylda1:/mnt/data 24T 22T 2.5T 90% /mnt/matylda1 matylda2:/speech 22T 13T 9.3T 57% /mnt/matylda2 matylda3:/speech 26T 24T 1.5T 95% /mnt/matylda3 matylda4:/speech 26T 18T 7.9T 70% /mnt/matylda4 matylda5:/speech 26T 15T 11T 57% /mnt/matylda5 matylda6:/speech 26T 16T 9.3T 64% /mnt/matylda6 scratch01:/mnt/data 3.0T 2.2T 829G 73% /mnt/scratch01 scratch02:/mnt/data 3.0T 2.0T 1.1T 66% /mnt/scratch02 scratch03:/mnt/data 1.9T 1.4T 487G 74% /mnt/scratch03 scratch04:/mnt/data 3.0T 2.5T 442G 86% /mnt/scratch04 scratch05:/mnt/data 3.0T 1.8T 1.2T 61% /mnt/scratch05 scratch06:/mnt/data 4.6T 3.5T 1.1T 77% /mnt/scratch06 BUT Speech@FIT group Honza Cernocky 7.4.2011

  7. … a šrot BUT Speech@FIT group Honza Cernocky 7.4.2011

  8. … a potřebujeme vědět, jak nám to jde • „Já jsem lepší než ti druzí“ – jen kecy, pokud nejsou stejná data a evaluační metriky • NIST – agentura vlády USA, http://www.nist.gov/speech • Její řečová skupina organizuje pravidelné evaluace řečových technologií (rozpoznávání řeči, řečníka, jazyka, …). • Všechny participující laboratoři obdrží stejná data a mají omezený čas na jejich analýzu a odeslání výsledků NISTu – objektivní srovnání výsledků. • Výsledky a detaily jednotlivých systémů se diskutují na následném workshopu. • Speech@FIT se evaluací účastní: Meeting recognition 2005, 2006, 2007, 2009, Language ID 2003, 2005, 2007, 2009, 2011, SpkVer 1998, 1999, 2006, 2008, 2010, 2012 Spoken term detection 2006, IARPA BEST 2011, DARPA RATS 2012, … BUT Speech@FIT group Honza Cernocky 7.4.2011

  9. Lidi • faculty • researchers • grad and pre-grad students • support staff • Bosses: • Research director: • Lukas Burget • Managing director: • Honza Cernocky • Guru: • Hynek Hermansky • Founded in 1997 (1 person) • grew to ~20 people in now BUT Speech@FIT group Honza Cernocky 7.4.2011

  10. Kdo to platí (~ 17 MCZK / rok) ? • Faculty(faculty members, research intent)research funds) • EU projects (FP[4567]) • Past: SpeechDat, SpeeCon, M4, AMI, CareTaker, AMIDA, MOBIO, weKnowIt, DIRAC • Running: FP7 GLOCAL • US funding – Air Force EOARD, IARPA, DARPA • Local funding agencies - Grant Agency of CR, Ministries of Education, and Trade and Commerce • Czech “force” ministries – Defense, Interior BUT Speech@FIT group Honza Cernocky 7.4.2011

  11. Aplikace výsledků Spin-offs International Local BUT Speech@FIT group Honza Cernocky 7.4.2011

  12. Internacionalisace a komunita • NIST evaluations, US-funded projects, EU projects, … • SW „tisíce děkovných dopisů“ – phnrec, RNNLM toolkit, TNet, … • Lidi odjinud (Indie, Irán, Německo, Rusko, Itálie) • Long term, • short term • Workshopy a komunity okolo nich • BOSARIS 2010, asi 2012 • KALDI 2010, 2011, asi 2012 => Working language is English => Cross-Atlantic teams BUT Speech@FIT group Honza Cernocky 7.4.2011

  13. Čeho si nejvíce vážím ? • U.S. IARPA program „BABEL“: BUT Speech@FIT group Honza Cernocky 7.4.2011

  14. Hot topics • Strašná data (DARPA RATS) • Multi-lingualita, málo a/nebo žádná a/nebo špatně popsaná trénovací data. • IARPA BABEL • MPO BUT Speech@FIT group Honza Cernocky 7.4.2011

  15. PhD ? • Požadujeme • Positivní vztah k matematice (ISS a ZRE jsou jen slabý odvar) a teoretické informatice • Slušné programování • Čtenou a mluvenou angličtinu •  • >100% úvazek • Dlouhou učící křivku („proč si na meetingu pořád připadám jako debil ?“) • SitzFleisch a samo-motivace ! BUT Speech@FIT group Honza Cernocky 7.4.2011

  16. PhD ! •  • Top research group • Okamžitá aplikace vybádaného v praxi. • Mezinárodní konference, projekty a evaluace – zajímaví lidé, zajímavá místa (i na déle) a skutečné srovnání se světem. • $ navíc ke stipendiu • Sociální aspekt • Pěkné vztahy • Kompetence v různých praktických oblastech života • RC modely • Lezení po kameni i ledu • Fun-carving • Kite-boarding • Stavba elektronkových kytarových zesilovačů BUT Speech@FIT group Honza Cernocky 7.4.2011

  17. Není to zas tak složitý… Zdroj:S. Young et al.: The HTK Book (for HTK Version 3.4), Cambridge University Engineering Department, 2006 Zdroj:T. Černocký: poznámky z předmětu Matematika pro 1. ročník, ZŠ Krásného Brno, školní rok 2006/2007. BUT Speech@FIT group Honza Cernocky 7.4.2011

More Related