第五章音频的数字化与语音编码

第五章音频的数字化与语音编码

学习内容 • 第一节音频的数字化 • 1、声音 • 2、模拟音频与数字音频 • 3、音频的采样、量化和数字化（重点） • 4、数字音频的格式

学习内容 • 第二节语音编码 • 1、人耳的听觉特性 • 2、脉冲编码调制(PCM) • 3、G.711标准、G.721标准、G.722标准（重点）

学习目标 1、了解声音相关概念及要素 2、掌握音频采样、量化和数字化原理 3、了解数字音频的文件格式 4、掌握常见的音频压缩编码方法 5、理解G.711、G.721、G.722标准

第一节音频的数字化

一、声音 声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上音调的高低体现在声音的频率上

一、声音——有关概念 复合信号：声音信号由许多频率不同的信号组成分量信号：单一频率的信号带宽：描述组成复合信号的频率范围。如：高保真声音的频率范围为10 Hz~20K Hz，它的带宽约为20K Hz。

一、声音——三要素 • 音强(volume) • 音调(pitch) • 音色 —> 响度，由振幅决定 —> 由频率决定 —> 指声音频率组成成分

一、声音——分类 • 次音频信号<20HZ(人耳听不到) • 音频信号20HZ~20kHZ(人能听到) • 超音频信号>20kHZ(人听不到,有很强的方向性,可以形成波束)

二、模拟音频与数字音频 模拟信号数字信号

二、模拟音频与数字音频 模拟音频：在时间和幅度上都是连续变化的数字音频：在时间和幅度上都是离散、不连续的

三、音频的数字化 模拟音频数字音频采样、量化、编码

三、音频的数字化（采样） 音频采样：当把模拟声音变成数字声音时，需要每隔一个时间间隔在模拟声音波形上取一个幅度值。信号转换示意图

三、音频的数字化（采样） 采样：将时间上连续的取值变为有限个离散取值的过程

三、音频的数字化（采样） 奈奎斯特采样定理：设连续信号X(t)的最高频率分量为Fm，以等间隔Ts（Ts称采样间隔，fs=1/Ts称为采样频率）对X(t)进行采样，得到Xs(t)。如果Fs>=2Fm，则Xs(t)保留了X(t )的全部信息（从Xs(t)可以不失真地恢复出X(t)）。只要采样频率高于信号中最高频率的2倍，就可以从采样中完全恢复原始信号的波形。

三、音频的数字化（量化） 音频量化：将经采样后幅度上无限多个连续的样值变为有限个离散值的过程

三、音频的数字化（量化） 量化过程：先将整个幅度划分成为有限个幅度（量化阶距）的集合，把落入某个阶距内的样值归为一类，并赋予相同的量化值。量化等级的划分

三、音频的数字化 模拟信号采样量化编码

三、音频的数字化 A/D转换中，影响质量及数据量的主要因素： • 每秒钟需要采集多少个声音样本即采样频率 • 每个声音样本的位数(bps)应该是多少即量化位数例子:每个声音样本用16位表示,测得声音样本值是在0~65536的范围里,它的精度就是输入信号的1/65536

三、音频的数字化 声音质量与数据率

四、数字音频的文件格式 1、WAV文件声音是随着时间连续变化的物理量，并且是一种能借助介质传播的波。

四、数字音频的文件格式 1、WAV文件特点：数据量大音质好不适合网络传播或播放文件数据量计算：字节数/秒=采样频率（HZ） * 量化位数（BIT）* 声道数/8 ?1分钟单声道，采样频率为11.025kHz，8位采样位数

四、数字音频的文件格式 2、MP3文件 MPEG Audio Layer-3 特点：数据量较小，压缩率10：1—20：1 音质较好是目前最为流行的音频格式文件

四、数字音频的文件格式 3、MIDI文件数字乐器接口标准特点：midi文件中存储的是产生声音指令数据量小适用于：需要播放长时间高质量音乐

四、数字音频的文件格式 3、MIDI文件

四、数字音频的文件格式 4、ASF、WMA文件微软开发的网上流式数字音频文件格式特点：音质好数据量小适合网络流式传输

四、数字音频的文件格式 5、RAM、RA文件 RealNetworks开发的网上流式数字音频文件格式特点：能随带宽的不同而改变音质，在保证大多数人听到流畅声音的前提下，带宽宽裕的听众获得较好的音质适合低网速的实时传输

四、数字音频的文件格式 6、AIF、AU文件 Apple公司开发的音频文件格式

四、数字音频的文件格式 7、CD-DA 数字音频光盘 44.1khz、16Bit量化位数、双声道

四、数字音频的文件格式 8、MD Mini Disc Sony推出的便携式音乐格式 MD汽车音响、随身听

五、音频文件的读取 工具： UltraEdit Debug 其他反汇编软件

RIFF／WAV文件标识段 文件头 WAVE文件声音数据格式说明段数据体五、音频文件的读取 WAVE文件作为多媒体中使用的声波文件格式之一，它是以RIFF格式为标准的。 RIFF是英文Resource Interchange File Format（资源互换文件格式）的缩写，每个WAVE文件的头四个字节便是“RIFF”。对应的十六进制是52 49 46 46。

文件头 数据体五、音频文件的读取 WAV文件结构

五、音频文件的读取

五、音频文件的读取 例：sound.wav 44.1kHz 16位双声道 12.68秒 2236752字节数据量

00h：52 49 46 46 82 21 22 00 57 41 56 45 66 6D 74 20 RIFF标志总数据块大小格式类型 fmt标志 2236802字节 WAVE 10h：12 00 00 00 01 00 02 00 44 AC 00 00 10 B1 02 00 音频格式数据块大小编码格式双声道采样频率每秒数据量 18 waveformatPCM 44.1kHz 176400 20h：04 00 10 00 00 00 66 61 63 74 04 00 00 00 54 88 区块对齐单位量化位数 4 16位 30h：08 00 64 61 74 61 50 21 22 00 00 00 00 00 FF FF data标志声音裸数据长度声音数据内容 2236752字节 40h：00 00 FE FF FE FF 00 00 00 00 FE FF FE FF 01 00 五、音频文件的读取

六、声音质量的度量 1、客观质量度量：信噪比信噪比SNR（Signal to Noise Ratio）是有用信号与噪声之比的简称。噪音可分为环境噪音和设备噪音。信噪比越大，声音质量越好。

六、声音质量的度量 2、客观质量度量：带宽

六、声音质量的度量 2、客观质量度量：带宽音频信号的频带越宽，所包含的音频信号分量越丰富，音质越好

六、声音质量的度量 3、客观质量度量：动态范围声音的动态范围即声音从最弱变到最强的范围。声音的动态范围还与频率有关。动态范围最大的频率区间是1000-6000HZ，计量单位是分贝(dB)。动态范围越大，信号强度的相对变化范围越大，音响效果越好

六、声音质量的度量 3、客观质量度量：动态范围动态范围＝20×log(信号的最大强度/信号的最小强度)(dB)

六、声音质量的度量 4、主观质量度量：MOS分数　Mean Opinian Score

作业 1、你认为多媒体技术发展的八大技术基础中哪一个是最重要的技术基础？并说明原因。 2、请简述音频数字化过程。 3、计算：三分钟的采样频率为22.05kHz，量化位数为16位的立体声音频数据量为多少？

第二节语音编码

一、人耳的听觉特性 • 人耳对各频率的灵敏度是不同的 • 频域掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音的现象。 • 时域掩蔽效应在时间上相邻的声音之间也有掩蔽现象

二、脉冲编码调制(PCM)

二、脉冲编码调制(PCM) 1、均匀量化的PCM

二、脉冲编码调制(PCM) 2、非均匀量化的PCM

三、 G.711标准 CCITT国际电话电报咨询委员会 Consulative Committee for International Telephone and Telegraph）原始信号 F=8khz B=14bit F=8khz B=8bit 压缩 64Kbps 112Kbps 采用的方法：对数PCM编码 • μ律压扩（北美、日本） • A 律压扩（西欧、中国）

第五章音频的数字化与语音编码