520 likes | 548 Vues
2.5.4.1 Basics of Neural Networks. 2.5.4.2 Neural Network Topologies. 2.5.4.2 Neural Network Topologies. 2.5.4.2 Neural Network Topologies. TDNN. 2.5.4.6 Neural Network Structures for Speech Recognition.
E N D
2.5.4.6 Neural Network Structures for Speech Recognition
3.2.2 Implementations of Filter Banks • Instead of direct convolution, which is computationally expensive, we assume each bandpass filter impulse response to be represented by: Where w(n) is a fixed lowpass filter
3.2.2.1 Frequency Domain Interpretation of the Short-Time Fourier Transform
3.2.2.1 Frequency Domain Interpretation of the Short-Time Fourier Transform
3.2.2.1 Frequency Domain Interpretation of the Short-Time Fourier Transform
3.2.2.1 Frequency Domain Interpretation of the Short-Time Fourier Transform
3.2.2.7 Tree Structure Realizations of Nonuniform Filter Banks
روش MFCC • روش MFCC مبتني بر نحوه ادراک گوش انسان از اصوات مي باشد. • روش MFCC نسبت به ساير ويژگِيها در محيطهاي نويزي بهتر عمل ميکند. • MFCC اساساً جهت کاربردهاي شناسايي گفتار ارايه شده است اما در شناسايي گوينده نيز راندمان مناسبي دارد. • واحد شنيدار گوش انسان Mel مي باشد که به کمک رابطه زير بدست مي آيد:
مراحل روش MFCC مرحله 1: نگاشت سيگنال از حوزه زمان به حوزه فرکانس به کمک FFT زمان کوتاه. : سيگنال گفتارZ(n) : تابع پنجره مانند پنجره همينگW(n( WF= e-j2π/F m : 0,…,F – 1; : طول فريم گفتاري.F
مراحل روش MFCC مرحله 2: يافتن انرژي هر کانال بانک فيلتر. که M تعداد بانکهاي فيلتر مبتني بر معيار مل ميباشد. تابع فيلترهاي بانک فيلتر است.
مراحل روش MFCC • مرحله 4: فشرده سازي طيف و اعمال تبديل DCT جهت حصول به ضرايب MFCC • در رابطه بالا L،...،0=n مرتبه ضرايب MFCC ميباشد.
سیگنال زمانی Mel-scaling فریم بندی |FFT|2 Logarithm IDCT Cepstra Low-order coefficients Delta & Delta Delta Cepstra Differentiator روش مل-کپستروم
Time-Frequency analysis • Short-term Fourier Transform • Standard way of frequency analysis: decompose the incoming signal into the constituent frequency components. • W(n): windowing function • N: frame length • p: step size
Critical band integration • Related to masking phenomenon: the threshold of a sinusoid is elevated when its frequency is close to the center frequency of a narrow-band noise • Frequency components within a critical band are not resolved. Auditory system interprets the signals within a critical band as a whole