1 / 29

北 京 邮 电 大 学 信息与通信工程学院 许文俊 副教授

第五章 无失真信源编码. 北 京 邮 电 大 学 信息与通信工程学院 许文俊 副教授. 二 元哈夫曼编码 — 知识回顾. 1. 异前置码的性质. 2. 变长码信源编码定理. 香农第一定理 : 平均码长不小于信源熵. 3. 二元哈夫曼编码. 2 /28. 二 元哈夫曼编码. 群. 业. 学. 博. 厚. 德. 敬. 乐. 北邮校训莫尔斯编码. 莫尔斯电码由法国人莫尔斯于 1837 年发明, 并在 二战 中得到广泛 应用 莫斯科保卫战、诺曼底登陆.

Télécharger la présentation

北 京 邮 电 大 学 信息与通信工程学院 许文俊 副教授

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第五章 无失真信源编码 北 京 邮 电 大 学 信息与通信工程学院 许文俊 副教授

  2. 二元哈夫曼编码—知识回顾 1.异前置码的性质 2.变长码信源编码定理 • 香农第一定理: • 平均码长不小于信源熵 3. 二元哈夫曼编码 2/28

  3. 二元哈夫曼编码 群 业 学 博 厚 德 敬 乐 北邮校训莫尔斯编码 • 莫尔斯电码由法国人莫尔斯于1837年发明,并在二战中得到广泛应用 • 莫斯科保卫战、诺曼底登陆 南安普顿大学莫尔斯电码演示http://morsecode.scphillips.com/jtranslator.html

  4. 二元哈夫曼编码—《风声》莫尔斯电码 电影《风声》 我不怕死 我怕的是我爱的人不知我因何而死 我身在炼狱留下这份记录,  是希望家人和玉姐原谅我此刻的决定, 但我坚信, 你们终会明白我的心情。 我亲爱的人, 我对你们如此无情, 只因民族已到存亡之际, 我辈只能奋不顾身,挽救于万一。  我的肉体即将陨灭, 灵魂却将与你们同在。 敌人不会了解,老鬼、老枪不是个人, 而是一种精神、一种信仰。 周迅旗袍上的莫尔斯电码

  5. 二元哈夫曼编码—《风声》莫尔斯电码 周迅旗袍上的莫尔斯电码 不计标点符号,共137个字 我不怕死 我怕的是我爱的人不知我因何而死 我身在炼狱留下这份记录,  是希望家人和玉姐原谅我此刻的决定, 但我坚信, 你们终会明白我的心情。 我亲爱的人, 我对你们如此无情, 只因民族已到存亡之际, 我辈只能奋不顾身,挽救于万一。  我的肉体即将陨灭, 灵魂却将与你们同在。 敌人不会了解,老鬼、老枪不是个人, 而是一种精神、一种信仰。 利用莫尔斯电码记录这些信息需要 缝制多长的旗袍呢

  6. 二元哈夫曼编码—《风声》莫尔斯电码 田:6040 • 汉字编码使用四角号码编码,每个汉字采用4个阿拉伯数字,则137个汉字的数据量为 数据量 • 莫尔斯电码的基本元素是点和划,每个阿拉伯数字用5个点或划表示,总针数为548x5= 2740 针 总针数 • 采用平针缝(电影中) • 针迹长度为4 毫米 • 十进制数的莫尔斯码的点和划数目一样 • 根据莫尔斯电码的规范,“点”的长度应当为“划”的长度的1/3。 • 平均每针的针迹长度:0.5 x (4 + 4/3),即 2.6667 毫米 • 平均每针的针迹长度为: 0.5 x (4 + 4/3),即 2.6667 毫米 平均针长 点、划数目一样 • 137个汉字若采用莫尔斯电码缝针,总针迹长度为: 2740x 2.6667=7306.6毫米 即周迅需要缝约7.3米的针迹。 旗袍长度

  7. 二元哈夫曼编码 信息论角度 是否有更好的 编码方法? 7.3米太长? 回顾: 异前置码 基本概念 本节课内容: 二元哈夫曼 编码

  8. 二元哈夫曼编码—异前置码知识回顾 异前置码 平均码长 特征:只有端点(树叶)对应码字,即要求端点和跟之间的不能有其他的节点作为码字,端点也不能向上延伸再构成新码字。 代码字 代表信源符号出现的概率, 的码长 信源 码字 码长 概率 0 000 0 001 0 1 1 01 1 1 R

  9. 二元哈夫曼编码—莫尔斯电码启发 什么样的编码具有更高编码效率? • 出现概率高的字母用短码 • 出现概率低的字母用长码 启发 莫尔斯电码表

  10. 二元哈夫曼编码—最优码特性

  11. 二元哈夫曼编码—最优码特性 • 特性1:对于最优码,符号概率越小,对应码长越长 反正法:假设不满足特性1: 信源 码字 码长 概率 c1= 0 c5=1 c1=000 0 1 c5= c2=001 0 1 0 c3=010 1 c4=011 1 平均码长继续减小: c1=000 c5=1 反例 结论:对于最优码,符号概率越小,对应码长越长

  12. 二元哈夫曼编码—最优码特性 • 特性2:对于最优码,最长码字只有两个,其长度相等,且只有末位不同 反证1:假设仅存在一个最长码字 反证2:假设最长码不是只有末位不同 信源 信源 码字 码字 0 00 0 0 0 0 100 0 0 01 1 101 0 1 1 0 0 1 110 1 10 1 1 111 0 1 11 1 0 反例2 反例1 去掉末位,码字依然符合异前置性,唯一可译。 结论:码长可以减小,与最优码矛盾

  13. 二元哈夫曼编码—哈夫曼编码方法 • 特性1:符号概率越小,对应码长越长 • 特性2:最长码字只有两个,其长度相等,且只有末位不同。 码字 0 0 1/3 哈夫曼编码思想:反向构造码树,即从叶子节点开始编码,汇聚到根节点 0 1 0 1/2 1 1 1 1 1/6 步骤 1 步骤 2 步骤 3 步骤 4 • 重复步骤1和2,直到只剩一个信源符号停止 • 合并两个最小概率符号(特性2) • 按概率从大到小排序(特性1) • 从根节点回溯到叶子节点,得到哈夫曼编码 哈夫曼编码三个关键词:排序、合并、回溯

  14. 二元哈夫曼编码—哈夫曼编码方法 例 已知4瓶葡萄酒中有一瓶已变坏,现通过品尝鉴别。第i瓶变坏的概率如下表所示。要求每次只能品尝一瓶,试选择品尝顺序使得确定坏酒所需平均品尝次数最少并回答:所需平均品尝次数是多少? 思路分析: 1) 品尝结果只有“好”和“坏”两种,刚好对应“1”和“0” 2) 不同的酒变坏刚好对应不同的码字 3) 平均品尝次数最少刚好对应平均码长最小 结论:需要进行二元哈夫曼编码

  15. 二元哈夫曼编码—哈夫曼编码方法 排序 0 0 0 10 回溯 1 0 110 1 1 111 合并 平均品尝次数: 品尝顺序:

  16. 二元哈夫曼编码—二元哈夫曼编码性质 • 二元哈夫曼 • 编码是最优码 特性1 二元哈夫曼编码的编码方法 保证了此性质 • 详细证明见 斯坦福教材《Elements of Information Theory》第五章第八节

  17. 二元哈夫曼编码—二元哈夫曼编码性质 • 二元哈夫曼 • 编码是最优码 二元哈夫曼编码结果不唯一,但平均码长不变 特性1 特性2

  18. 二元哈夫曼编码—二元哈夫曼编码性质 二元哈夫曼编码结果不唯一,但平均码长不变 特性2 原因:平均码长只对码字长度提出限制,没有规定码符号的选取

  19. 二元哈夫曼编码—二元哈夫曼编码性质 • 二元哈夫曼 • 编码是最优码 二元哈夫曼编码结果不唯一,但平均码长不变 • 二元哈夫曼编码不一定达到编码定理下界 特性1 特性2 特性3

  20. 二元哈夫曼编码—二元哈夫曼编码性质 • 二元哈夫曼编码不一定达到编码定理下界 信源熵为 特性3 达到下界的条件与信源符号概率分布相关,为

  21. 二元哈夫曼编码—二元哈夫曼编码性质 • 二元哈夫曼 • 编码是最优码 二元哈夫曼编码结果不唯一,但平均码长不变 • 二元信源的二元哈夫曼编码结果通常不理想,编码效率低 • 二元哈夫曼编码不一定达到编码定理下界 特性1 特性2 特性3 特性4

  22. 二元哈夫曼编码—二元哈夫曼编码性质 • 二元信源的二元哈夫曼编码结果通常不理想,编码效率低 将两个符号合并,作为新信源符号 特性4 • 无论如何编码,平均码长均 • 为1,编码效率为 • 编码效率为 解决方法:对于二元信源,采用合并符号的方法

  23. 二元哈夫曼编码—哈夫曼vs莫尔斯 二元哈夫曼编码特性1:二元哈夫曼编码是最优码 验证 莫尔斯 戴维·哈夫曼 VS 哈夫曼编码 莫尔斯编码

  24. 二元哈夫曼编码—哈夫曼vs莫尔斯 厚 博 德 学 校训编码长度比较 敬 业 乐 群 采用莫尔斯编码方法 莫尔斯编码不能唯一译码 字母间需要加上3个点间隔 进行莫尔斯编码总共需要119bits

  25. 二元哈夫曼编码—哈夫曼vs莫尔斯 厚 博 德 学 敬 业 乐 群 采用哈夫曼编码方法 H: 1001 hou 厚 O: 0000 U: 10110 编码需要:13bits 整个校训进行哈夫曼编码需要的比特数:109bits 哈夫曼编码长度(109)小于莫尔斯编码长度(119)

  26. 二元哈夫曼编码—哈夫曼vs莫尔斯 《风声》编码长度比较 我不怕死 我怕的是我爱的人不知我因何而死 我身在炼狱留下这份记录,  是希望家人和玉姐原谅我此刻的决定, 但我坚信, 你们终会明白我的心情。 我亲爱的人, 我对你们如此无情, 只因民族已到存亡之际, 我辈只能奋不顾身,挽救于万一。  我的肉体即将陨灭, 灵魂却将与你们同在。 敌人不会了解,老鬼、老枪不是个人, 而是一种精神、一种信仰。 • 137个汉字若采用莫尔斯电码缝针, 总针迹长度为: 2740x 2.6667=7306.6毫米 即周迅需要缝约7.3米的针迹。 旗袍长度 用莫尔斯编码是7.3米,用哈夫曼编码呢?

  27. 二元哈夫曼编码—哈夫曼vs莫尔斯 • 最优平均 • 码长范围 • 香农第一编码定理 汉字信息熵 • 冯志伟《汉字的极限熵》中文信息CIP 1996年第2期 平均码长范围 总比特数范围 旗袍长度范围

  28. 二元哈夫曼编码—课后小练习 纸上得来终觉浅 绝知此事要躬行 ——陆游 周迅缝在旗袍上的137个字 编写程序的方式实现哈夫曼编码,得出编码结果 课后 小练习

  29. 谢谢!

More Related