520 likes | 549 Vues
Learn about MFCC, a method based on human auditory perception for better speech recognition in noisy environments with efficient time-frequency analysis techniques like STFT. Discover how to map signals from time to frequency domain, calculate filter bank energy, compress spectra using DCT, and extract MFCC coefficients. Explore the significance of Mel scaling, logarithm operations, and delta coefficients for robust speech and speaker identification applications.
E N D
2.5.4.6 Neural Network Structures for Speech Recognition
3.2.2 Implementations of Filter Banks • Instead of direct convolution, which is computationally expensive, we assume each bandpass filter impulse response to be represented by: Where w(n) is a fixed lowpass filter
3.2.2.1 Frequency Domain Interpretation of the Short-Time Fourier Transform
3.2.2.1 Frequency Domain Interpretation of the Short-Time Fourier Transform
3.2.2.1 Frequency Domain Interpretation of the Short-Time Fourier Transform
3.2.2.1 Frequency Domain Interpretation of the Short-Time Fourier Transform
3.2.2.7 Tree Structure Realizations of Nonuniform Filter Banks
روش MFCC • روش MFCC مبتني بر نحوه ادراک گوش انسان از اصوات مي باشد. • روش MFCC نسبت به ساير ويژگِيها در محيطهاي نويزي بهتر عمل ميکند. • MFCC اساساً جهت کاربردهاي شناسايي گفتار ارايه شده است اما در شناسايي گوينده نيز راندمان مناسبي دارد. • واحد شنيدار گوش انسان Mel مي باشد که به کمک رابطه زير بدست مي آيد:
مراحل روش MFCC مرحله 1: نگاشت سيگنال از حوزه زمان به حوزه فرکانس به کمک FFT زمان کوتاه. : سيگنال گفتارZ(n) : تابع پنجره مانند پنجره همينگW(n( WF= e-j2π/F m : 0,…,F – 1; : طول فريم گفتاري.F
مراحل روش MFCC مرحله 2: يافتن انرژي هر کانال بانک فيلتر. که M تعداد بانکهاي فيلتر مبتني بر معيار مل ميباشد. تابع فيلترهاي بانک فيلتر است.
مراحل روش MFCC • مرحله 4: فشرده سازي طيف و اعمال تبديل DCT جهت حصول به ضرايب MFCC • در رابطه بالا L،...،0=n مرتبه ضرايب MFCC ميباشد.
سیگنال زمانی Mel-scaling فریم بندی |FFT|2 Logarithm IDCT Cepstra Low-order coefficients Delta & Delta Delta Cepstra Differentiator روش مل-کپستروم
Time-Frequency analysis • Short-term Fourier Transform • Standard way of frequency analysis: decompose the incoming signal into the constituent frequency components. • W(n): windowing function • N: frame length • p: step size
Critical band integration • Related to masking phenomenon: the threshold of a sinusoid is elevated when its frequency is close to the center frequency of a narrow-band noise • Frequency components within a critical band are not resolved. Auditory system interprets the signals within a critical band as a whole