Inkrementálny systém pre rozpoznávanie slovných povelov

TECHNICKÁ UNIVERZITA V KOŠICIACH - FAKULTA ELEKTROTECHNIKY A INFORMATIKY Katedra kybernetiky a umelej inteligencie Ing. Zlatko Fedor Prof. Ing. Peter Sinčák, CSc. Inkrementálny systém pre rozpoznávanie slovných povelov

Teoretický popis použitých prostriedkov Navrhnuté modifikácie neurónovej siete Technická implementácia Experimenty Video ukážka Záver OBSAH

Predspracovanie • Nahrať audio signál • Rozsekanie na menšie časové úseky(mikrosegmenty) • Prekrytie jednotlivých časových úsekov • Váhovanie pomocou hammingovho okienka • Fourierova transformácia • Použijeme iba polovicu spektra • MELovská banka filtrov • Výstup z filtra logaritmujeme • Spätná fourierova transformácia

1. Nahrať audio signál • vzorkovacia frekvencia 16kHz =>16000 vzoriek/sekunda • 8kHz je nedostatočných – experimenty • 16bitov na hodnotu

2. rozsekanie na menšie časové úseky • hlasivky zotrvačnosť 10-30ms –> 10ms • 16000 / 100 => 160 hodnôt každých 10ms

3. prekrytie jednotlivých časových úsekov • pravdepodobne sa netrafíme do zotrvačnosti hlasiviek

4. váhovanie pomocou hammingovho okienka • vynásobíme hodnoty segmentu hodnotami okienka • prerušovanosť na krajoch segmentov vedie ku skresleniu(zašumeniu spektier)

5. fourierova transformácia • prevod z časovej oblasti do frekvenčnej • iba reálna časť pretože: človek veľmi nepočuje rozdiel vo fáze • 80+160+80=320 vzoriek -> 320 koeficientov

6. použijeme iba polovicu spektra • spektrum je symetrické • získame 160 koeficientov

7. použijeme MELovskú banku filtrov • človek vníma zvuk nelineárne, odstránime jemnú štruktúru spektra nesúcu informáciu o nedôležitom základnom tóne • kompenzujú nelineárne vnímanie frekvencií bankov trojuholníkových pásmových filtrov • Zredukujeme 160 koeficientov na 20

8. výstup z filtra logaritmujeme • odráža to logaritmické vnímanie hlasitosti ľuďmi a vedie ku gaussovšiemu rozloženiu koeficientov

9. spätná fourierova transformácia • jednotlivé koeficienty sa dekorelujú • vzhľadom na to, že výkonové spektrum je reálne symetrické bude sa IDFT redukovať na diskrétnu kosínusovú transformáciu DCT

10. použijeme iba prvých 10 koeficientov • dostatočne reprezentujú ústnu dutinu

1. normalizácia • neurónová sieť potrebuje na vstupe hodnoty v intervale <0,1> • experimentálne som zistil minimálne a maximálne hodnoty pre 10koeficientov, ktoré dostávam po diskrétnej kosínusovej transformácii

2. Kompenzácia rôznej dĺžky slov • pri klasifikácii neurónovou sieťou je potrebný konštantný počet vstupných neurónov. • pre danú doménu slov postačuje 33 segmentov • ak je slovo kratšie doplníme ho posledným segmentom slova na požadovanú dĺžku

2. Kompenzácia rôznej dĺžky slov • ak je slovo potrebné skrátiť je zistený počet mikrosegmentov, ktoré je potrebné odhodiť • pretože je medzi jednotlivými mikrosegmentami prekrytie, vymazávajú sa segmenty čo najďalej od seba => tým sa „zabráni“ vynechávaniu písmen

vychádza z existujúceho modelu MF Artmap • využíva všetky jeho výhody, medzi ktoré jednoznačne patrí rýchlosť učenia/klasifikácie a taktiež identifikácia neznámej triedy • zmena práce s parametrom R na porovnávacej vrstve siete • zmena aktualizácie parametra R pri zatriedení nového príkladu do už existujúceho zhluku • odstraňuje niektoré „chyby“ tejto siete Modifikovaný MF Artmap

MASS

experimentom bolo potrebné nájsť hodnotu parametra neurónovej siete tak, aby následné rozpoznávanie prebiehalo čo najlepšie s prihliadnutím na počet trénovacej množiny a chybného zaradenia slov počet trénovacích slov: 111 počet testovacích slov: 20 počet tried: 10 počet rečníkov: 2 (muž, žena) 1. Experiment

1. Experiment

výsledná presnosť klasifikácie je 87.93% počet trénovacích slov: 165, počet testovacích slov: 58 počet tried: 10, počet rečníkov: 4 (traja muži, jedna žena) 2. Experiment na robotickom psovi AIBO

Video ukážka Demonštrácia práce v systéme MASS a rozpoznávanie izolovaných slov robotickým psom AIBO

Záver Ďakujem za pozornosť

Inkrementálny systém pre rozpoznávanie slovných povelov