多媒体技术基础

多媒体技术基础 四川大学计算机学院陈虎 huchen@scu.edu.cn

1 数字化原理

模拟信号 • 模拟信号指幅度的取值是连续的（幅值可由无限个数值表示）。 • 现实中涉及的许多媒体对象是模拟信号例如：声音、图像、视频等

数字信号 • 数字信号是人为抽象出来的在时间上的不连续信号，是离散时间信号的数字化表示，通常由模拟信号获得。 • 计算机处理的对象是数字信号（二进制数 “0”和 “1” ）例如：英文字符以的 ASCII 代码，汉字字符的国标 GB2312-80 代码表示都是二进制数字串

多媒体系统的数模与模数转换 传感器 (声音、图像、视频等--模拟） A/D 计算机（数字）输出设备（数字）输出设备（声音、电视--等模拟） D/A

模数转换-采样 • 概念：从连续时间信号中提取离散样本的过程；或者说在某些离散的时间点上提取连续时间信号值的过程称为采样。 • 采样按采样间隔可分为:均匀采样与非均匀采样。

采样的必要性 • 采样是连续时间信号和离散时间信号之间的桥梁，对连续信号而言，随着数字处理技术的发展，越来越迫切地要求连续信号的离散化。例如，电影的连续画面，实际上是由一组时间样本快速播放实现的，数字通信系统，微处理器系统对连续时间信号的处理，都是通过采样来实现的。

采样示例

采样当取出的样本一样时，样本对应的连续时间函数却不是唯一的。

采样 • 此外，对同一个连续时间信号，当采样间隔不同时也会得到不同的样本序列。结论：没有任何条件限制的情况下，从连续时间信号采样所得到的样本序列，不能唯一地确定原来的连续时间信号，即：一个连续时间信号必须在某一种条件下才能由其样本来表示。

采样分析 采样函数：采样样本：

采样分析 原连续时间信号：采样函数频谱：已采样信号的频谱：

采样分析 对连续时间信号在时域理想采样，就相当于在频域以采样频率s为周期延拓，幅值减小1/T。要使频谱不混迭，就必须使信号带限，且上述即为时域采样的约束条件从而我们得到怎样抽取样本，样本才能唯一地表征原信号的取样条件，下面为上述分析的一个完整总结－－采样定理。

采样定理 设是某一个带限信号，在||> M时，X（j）=0。如果采样频率 s>2 M ，其中s ＝2/T, 那么就唯一地由其样本所确定。已知这些样本值，我们能用如下办法重建：让采样后的信号通过一个增益为T, 截止频率大于M，而小于（ sM）的理想滤波器，该滤波器的输出就是。 2 M称为奈奎斯特率； M称为奈奎斯特频率。

2 数据压缩

压缩的必要性 • 音频、视频的数据量很大，如果不进行处理，计算机系统几乎无法对它进行存取和交换。例如：一幅中等分辨率（640×480）的真彩色图像（24b/像素），它的数据量约为0.9MB/帧，若要达到每秒25帧的全动态显示要求，每秒所需的数据量约为22MB。对于声音也是如此，CD音质的声音每秒将有约为172KB的数据量。

信息论 • 1948年 C.E.Shannon 香农发表了题为“通信的数学理论”的论文。 • 运用通信技术与概率论、随机过程、数理统计的方法系统讨论了通信的基本问题，得出了几个重要而带有普遍意义的结论： 1.阐明通信系统传递的对象就是信息 2.对信息给予科学的定量描述 3.提出了信息熵的概念

信息论科学体系 香农信息论压缩理论保密理论传输理论有噪声网络信道有失真信源编码无失真信源编码保密系统的信息理论信道编码理论网络信息理论率失真理论变长编码定理等长编码定理最优码构成 Huffman码 Fano码码构成网络最佳码压缩编码保密码纠错码卷积码代数编码

信息论之父 • The Father of Information Theory——Claude Elwood Shannon • Born: 30 April 1916 in Gaylord, Michigan, USA • Died: 24 Feb 2001 in Medford, Massachusetts, USA

熵 • 定义： • 设随机变量X，取值空间Ω，Ω为有限集合。X的分布密度为p(x)，p(x)=P(X=x) x∈X，则该随机变量的取值不确定程度，即其熵为： • 当使用log2时，熵的单位为比特 • 反映一个信源发出不同信号，具有的平均信息量。

为什么能够进行压缩 信息论认为：若信源编码的熵大于信源的实际熵，该信源中一定存在冗余度（信息熵冗余）。

冗余的基本概念 • 指信息存在的各种性质的多余度举例：（1）广播员读文稿时每分钟约读180字，一个汉字占两个字节；文本数据量为360B；（2）如果对语音录音，由于人说话的音频范围为20Hz到 4kHz，即语音的带宽为4kHz，若设量化位数为8bit,则一秒钟的数据量为： 4×2×8=64kbit/s= 8KB/s 则一分钟的数据是480KB。 360B 480KB

数据冗余的类别 • 空间冗余 • 时间冗余 • 统计冗余 • 信息熵冗余 • 结构冗余 • 知识冗余 • 视觉冗余 • 听觉冗余

●空间冗余 ●时间冗余数据冗余的类别规则物体和规则背景的表面物理特性都具有相关性，数字化后表现为数据冗余。序列图像（如电视图像和运动图像）和语音数据的前后有着很强的相关性，经常包含着冗余。在播出该序列图像时，时间发生了推移，但若干幅画面的同一部位没有变化，变化的只是其中某些地方，这就形成了时间冗余。

●统计冗余 ●信息熵冗余 ●结构冗余数据冗余的类别空间冗余和时间冗余是把图像信号看作概率信号时反应出的统计特性，因此，这两种冗余也被称为统计冗余。信息熵实际情况又称编码冗余。信息熵是指一组数所携带的信息量。数字化图像中的物体表面纹理等结构往往存在着冗余

●知识冗余 ●视觉冗余 ●听觉冗余数据冗余的类别由图像的记录方式与人对图像的知识差异所产生的冗余称为知识冗余。人类的视觉系统对于图像场的注意在非均匀和非线性的，视觉系统并不是对图像的任何变化都能感知。人耳对不同频率的声音的敏感性是不同的，并不能察觉所有频率的变化，对某些频率不必特别关注，因此存在听觉冗余。

信息冗余 • 从信息论关系中图像信息中冗余信息，如果一个图像的灰度级编码，使用了多于实际需要的编码符号，则该图像包含了信息冗余 • 例：如果用8位表示下面图像的像素，我们就说该图像存在着编码冗余，因为该图像的像素只有两个灰度，用一位即可表示。

统计冗余 • 从统计的观点，某点像素的灰度与其邻域灰度有密切关系。因此任何给定的像素值，原理上都可以通过它的相邻像素预测到，单个像素携带的信息相对是小的。对于一个图像，很多单个像素对视觉的贡献是冗余的。 • 例：原图像数据： • 234 223 231 238 235 • 压缩后数据： • 234 11 -8 -7 3

空间冗余 规则物体表面有相关性，数字化后表现出冗余。图像相邻像素之间色彩、明度相同或相似，产生信息（有意义的内容）冗余

时间冗余 • 时间发生了推移，若干幅画面的同一部位没有变化，于是产生了冗余

结构冗余 数字化图像中具有规则纹理的表面产生的冗余。取其中一块编码，其余只记录坐标

33K 15K 视觉心理冗余 • 一些信息在一般视觉的处理中比其它信息的相对重要程度要小，可以忽略不计，这种信息就被称为视觉心理冗余。

数据压缩的评价-压缩比 • 设：n1和n2是输入数据和输出数据压缩比为：CR = n1 / n2 例如：图像 512×480， 24位输入＝(512×480×24)/8=737280B 输出15000B 压缩比＝737280/15000＝49 • 相对数据冗余： • RD = 1 – 1/CR=(n1-n2)/n2

数据压缩的评价-压缩质量 • 客观质量评价：压缩过程对信息的损失能够表示为原始信息与压缩并解压缩后信息的函数。（信噪比（SNR）） • 例如，图像中

数据压缩的评价-压缩质量 • 主观质量评价： • 以人的主观感受作为评价标准。例如：通过视觉比较两个图像，给出一个定性的评价，如很粗、粗、稍粗、相同、稍好、较好、很好等，可以对所有人的感觉评分计算平均感觉分来衡量。

压缩解压缩速度 • 算法复杂－压缩解压慢，压缩效果好算法简单－压缩解压快，压缩效果差 • 在许多应用中，压缩和解压可能不同时用，在不同的位置不同的系统中。所以，压缩、解压速度分别估计。例如静态图像中，压缩速度没有解压速度严格；动态图像中，压缩、解压速度都有要求，因为需实时地从摄像机或其他设备中抓取动态视频。

压缩编码的分类 • 数据压缩(data compression) 与信号编码(signal coding)往往含义相同 • 压缩(compress) • 解压缩/还原/重构(decompress) • 编码(encode/coding) • 解码/译码(decode) • 相关学科：信息论、数学、信号处理、数据压缩、编码理论和方法

压缩编码的分类 • 编码压缩的方法目前有很多，其分类方法根据出发点不同而有差异。一般根据根据解码后数据与原始数据是否完全一致将编码压缩分为： • 无损压缩编码 • 有损压缩编码

压缩编码的分类 • 无损压缩是指使用压缩后的数据进行重构(或者叫做还原，解压缩)，重构后的数据与原来的数据完全相同；无损压缩用于要求重构的信号与原始信号完全一致的场合。 • 有损压缩是指使用压缩后的数据进行重构，重构后的数据与原来的数据有所不同，但不影响人对原始资料表达的信息造成误解。有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。图像、声音

行程编码 LZW编码哈夫曼编码算术编码无损预测编码位平面编码无损压缩 K-L变换 Haar变换 Walsh.Hadamard变换离散余弦变换离散傅立叶变换斜变换小波变换压缩变换编码有损压缩有损预测编码分形编码模型编码子带编码神经网络编码压缩编码的分类

压缩编码的分类 • 从信息语义角度分为：熵编码、源编码和混合编码 • 熵编码(entropy encoding)（也称平均信息量编码）熵编码是一种泛指那些不考虑被压缩信息的性质的无损编码。它是基于平均信息量的技术把所有的数据当作比特序列，而不根据压缩信息的类型优化压缩。也就是说，平均信息量编码忽略被压缩信息的语义内容。如RLE（run length encoding行程编码）、LZW（Lempel-Ziv-Walch 基于词典的编码算法）、Huffman编码。

压缩编码的分类 • 源编码(Source Coding) 源编码的冗余压缩取决于初始信号的类型、前后的相关性、信号的语义内容等。源编码比严格的平均信息量编码的压缩率更高。当然压缩的程度主要取决于数据的语义内容，比起平均信息量编码，它的压缩比更大。简而言之，利用信号原数据在时间域和频率域中的相关性和冗余进行压缩的有语义编码。如：预测编码：DM、ADPCM 变换编码：DCT、DWT 分层编码：如子采样、子带编码其他编码：如矢量量化、运动补偿、音感编码

压缩编码的分类 • 混合编码(hybrid coding) 混合编码= 熵编码 + 源编码大多数压缩标准都采用混合编码的方法进行数据压缩，一般是先利用信源编码进行有损压缩，再利用熵编码做进一步的无损压缩。如H.261、H.263、JPEG、MPEG等。

压缩编码的分类 此外，也可根据不同的依据对数据的压缩算法进行其它不同的分类，如： • 按作用域在空间域或频率域：空间方法、变换方法、混合方法 • 按是否自适应：自适应性编码和非适应性（静态）编码 • 按码长：定长码和变长码

香农-范诺 • 香农-范诺编码(Shannon–Fano coding) • 在香农的源编码理论中，熵的大小表示非冗余的不可压缩的信息量 • 在计算熵时，如果对数的底数用2，熵的单位就用“香农(Sh)”，也称“位(bit)”。“位”是1948年Shannon首次使用的术语。 • 最早阐述和实现“从上到下”的熵编码方法的人是Shannon(1948年)和Fano(1949年)，因此称为香农-范诺(Shannon- Fano)编码法

香农-范诺编码举例 • 有一幅40个像素组成的灰度图像，灰度共有5级，分别用符号A，B，C，D和E表示。40个像素中出现灰度A的像素数有15个，出现灰度B的像素数有7个，出现灰度C的像素数有7个，其余情况见表2-1 • (1) 计算该图像可能获得的压缩比的理论值 • (2) 对5个符号进行编码 • (3) 计算该图像可能获得的压缩比的实际值

香农-范诺编码举例 • 理论值 • 按照常规的编码方法，表示5个符号最少需要3位，如用000表示A，001表示B，…，100表示E，其余3个代码 (101，110，111)不用。这就意味每个像素用3位，编码这幅图像总共需要120位。按照香农理论，这幅图像的熵为

香农-范诺编码举例 • 这个数值表明，每个符号不需要用3位构成的代码表示，而用2.196位就可以，因此40个像素只需用87.84位就可以，因此在理论上，这幅图像的的压缩比为120:87.84≈1.37:1，实际上就是3:2.196≈1.37

(2) 符号编码 对每个符号进行编码时采用“从上到下”的方法。首先按照符号出现的频度或概率排序，然后使用递归方法分成两个部分，每一部分具有近似相同的次数香农-范诺编码举例

多媒体技术基础

多媒体技术基础

Presentation Transcript