1 / 113

第 3 章 音频

第 3 章 音频. 音频 (audio) 指人能听到的声音,包括语音、音乐和其它声音 ( 声响、环境声、音效声、自然声 ) 。 3.1 声音 3.2 音频信号的数字化 3.3 数字音频技术与格式 3.4 MIDI 3.5 音频编码 3.6 语音处理简介. 3.1 声音. 3.1.1 声波 声音 (sound) 是一种由机械振动引起可在物理介质(气体、液体或固体)中传播的纵向压力波(纵波或疏密波)。称振动发声的物体为声源。声音在真空中不能传播,我们主要讨论声音在空气中的传播

Télécharger la présentation

第 3 章 音频

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第3章 音频 音频(audio)指人能听到的声音,包括语音、音乐和其它声音(声响、环境声、音效声、自然声)。 • 3.1 声音 • 3.2 音频信号的数字化 • 3.3 数字音频技术与格式 • 3.4 MIDI • 3.5 音频编码 • 3.6 语音处理简介

  2. 3.1 声音 3.1.1 声波 • 声音(sound)是一种由机械振动引起可在物理介质(气体、液体或固体)中传播的纵向压力波(纵波或疏密波)。称振动发声的物体为声源。声音在真空中不能传播,我们主要讨论声音在空气中的传播 • 声波(sound wave)指在物理介质中传播的声音。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。因此,声波可用振幅和频率这两个基本物理量来描述: • 振幅:声波的振幅 (amplitude) A定义为振动过程中振动的物质偏离平衡位置的最大绝对值 • 频率:声波的频率(frequency) f 定义为单位时间内振动的次数,单位为赫兹Hz(每秒钟振动的次数)

  3. 声音是一种连续的波

  4. 声速 • 声音在空气中传播的速度几乎不受气压大小的影响,但是受气温的影响很大。在气温为t℃时的声速: c = 331.5 * (1 + t / 273)1/2 ≈ 331.5 + 0.6 t (m/s) 例如在室温(15℃)下,声速c ≈ 340 m/s。

  5. 波长与频率 • 声音的波长(wave length)λ定义为声音每振动一次所走过的距离,单位为米(m)。声波的波长与频率的关系为(其中c为声速): λ= c / f (m)

  6. 纯音与复音、基频与谐频 • 纯音(pure tone)——具有单一频率的声音 • 复音(complex tone)——具有多种频率成分的声音。普通的声音(如人讲话和乐器演奏)一般都是复音 • 和谐的复音由基音(fundamental tone)和谐音(harmonic tone)所组成 • 基音的频率是和谐复音中的最低频(通常具有最大振幅),称为基频(fundamental frequency) • 谐音(也叫泛音[overtone])的频率是基频的整数倍,称为谐频(harmonic frequency) • 基音决定声音的高低(音调),谐音则决定声音的音品(音色)

  7. 和谐复音的基频与谐频

  8. 声音三要素 • 声音的感知特性主要有音调、响度和音色,称之为声音的三要素: • 音调——人耳对声音高低的感觉称为音调(tone)。音调主要与声音的频率有关,但不是简单的线性关系,而是成对数关系。除了频率外,影响音调的因素还有声音的声压级和声音的持续时间。音调的单位为美(mel) • 响度——声音的响度(loudness)就是对声音强弱的主观感知。声音的大小在客观上一般用声级(soundlevel)表示,其单位为分贝(dB),无量纲,人能感知的声音大小的范围一般为0~120dB。主观感觉的声音强弱则使用响度“宋(sone)”或响度级“方(phon)”来度量 • 音色——音色(timbre)是人们区别具有相同的响度和音调的两个(不同发声体所发出)声音的主观感觉,也称为音品。例如,每个人讲话都有自己的音色;每种乐器都有各自的音色。音色主要是由复音中不同谐音的分布和组成所决定的,影响音色的因素还有声音的时间过程

  9. 3.1.2 频率范围 • 声音 • 人类听觉:20Hz~20kHz • 人声:80Hz~3400Hz • 语音:300Hz~3000 Hz • 传统乐器:16Hz~7kHz • 钢琴:27.5Hz~4186Hz • 声乐:87Hz(男低音)~1318Hz(花腔女高音)

  10. 器乐的频率 • 传统乐器的发声范围为16Hz (C2)~7kHz(a5),如钢琴的为27.5Hz (A2)~4186Hz(c5) • 乐理的音高采用12平均律,将8度(倍频)音,按2的指数分为12份(2^1200),每份相当于一个半音(100音分) • 可把音高分为若干组,低音用大写字母,高音用小写字母,更低/高的音在大/小写字母后用数字下/上标表示其级别,如标准音:a1 = 440Hz,中央C:c1 = 261.6255653Hz • 8度音的频率差一倍,如a2 = 2×a1 = 2×440Hz = 880Hz,C1 = 2*C2 = 2×16.35Hz = 32.70Hz

  11. 声乐 • 声乐指人唱歌,可以按照男、女、童和高、中、低等来进行分类 • 声乐的频率范围为87Hz(男低音) ~ 1318Hz (花腔女高音) • 一般歌手的音域都有两个8度左右的宽度,但是有少数通俗唱法歌手的音域只有8度宽

  12. 3.1.3 音量 • 音量([sound] volume)即声音的强弱,可以用声压(级)、声强(级)和声功率(级)来度量 • 声压(sound pressure) P = 空气压强 - 大气压 • 一个标准大气压=1.03*10^5Pa。人耳对1kHz频率声音之听阈的声压约为2*10^-5Pa,痛阈的声压约为20Pa,正常说话时的声压约为0.02~0.03Pa,是标准大气压的千万分之二、三。 • 由于人耳对声压的感知范围大(相差约一百万倍),而且人的听觉与声压不是线性关系,而是近似于对数关系。所以常按对数式分级(level)办法来表示声音的大小 • 声压级(sound pressure level): 其中,参考声压Pref取为1kHz的听阈声压(2*10^-5Pa),声压级的值无量纲,单位为dB(decibel分贝)。如1kHz频率声音的听阈之声压级=20*lg1=0dB,痛阈之声压级=20*lg10^6 =120dB。声压变化10倍,声压级才变化20dB。

  13. 3.1.4 听觉系统的感知特性 • 人耳分为外耳、中耳和内耳三个部分: • 外耳由耳廓和耳道构成 • 鼓膜处在外耳和中耳之间 • 中耳包含三根听骨及通向咽腔的耳咽管 • 内耳则包括耳蜗、前庭、三半规管和听神经等部分。内耳中的前庭器和半规管内,主要含平衡觉感受器,与听觉无关

  14. 耳蜗与柯蒂器 • 耳蜗(cochlea)是一种充满液体的卷曲结构,大小如一颗豆子。管长35mm,卷绕两圈半,成蜗壳状 • 耳蜗内部被两个膜(前庭膜和基膜)分隔,中间形成的一个楔形剖面部分,称为蜗管 • 蜗管内部的复杂结构称为柯蒂器(organ of Corti)是外周听觉系统的核心部分。

  15. 对音强的感知 • 在物理上,声音的大小使用客观测量单位来度量,即声压用Pa(帕)或N/m2(牛顿/平方米)、声强用W/m2(瓦特/平方米)、声功率用W(瓦)、声级用dB(分贝) • 在心理上,主观感觉的声音强弱使用响度(loudness)或响度级(loudness level)来度量 • 响度的单位为“宋(sone)”,为了对响度进行计算,定义声级为40dB的1kHz标准音的响度等于1宋 • 定义响度级的值为1kHz标准音的声级的dB值,单位为“方(phon)”

  16. 响度S与响度级P之间的关系 可见,40方为1宋,2宋比1宋响1倍,3宋比1宋响2倍,其余可依次类推 • 听阈(hearing/audibility threshold)——人耳朵刚刚可以听见时的声音强度。此时的主观响度级定为0方 • 痛阈(pain threshold)——使人的耳朵刚刚感到疼痛时的声音强度。此时的主观响度级定为120方 • 实验表明,听阈和痛阈都是随频率变化的

  17. 等响曲线

  18. 对音高的感知 • 客观上用频率来表示声音的音高,其单位是Hz。而主观感觉的音高(音调)单位则是“美[尔](Mel)”和“巴克(Bark)” • 主观音高与客观音高的关系是: 其中f的单位为Hz,这也是两个既不相同又有联系的单位

  19. 音高—频率 曲线

  20. 掩蔽效应 • 掩蔽效应——一种频率的声音阻碍听觉系统感受另一种频率的声音的现象 • 掩蔽可分成频域掩蔽和时域掩蔽等 • 频域的纯音掩蔽——一个强纯音会掩蔽在其附近同时发声的弱纯音。也称为同时掩蔽(simultaneous masking) • 一般来说,弱纯音离强纯音越近就越容易被掩蔽 • 由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临界频带(critical band)”的概念 • 临界频带表示的是人耳对两个纯音叠加时的分辨能力。通常将从20 Hz到20 kHz范围分成24个临界频带,临界频带的中心频率越高,其带宽也越大 • 临界频带的单位也叫Bark(巴克),即1 Bark = 一个临界频带的宽度

  21. 复音掩蔽与时域掩蔽 • 复音掩蔽——复音由多种频率的声音组成,人耳能分辨出复音所包含的各种分音,从而感受到它的音色。由于纯音的掩蔽效应可能使得复音中的部分分音人耳听不到,使得原来的音色发生改变,称之为复音掩蔽效应 • 时域掩蔽——除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,称为时域掩蔽 • 时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking) • 产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约5~20 ms,而滞后掩蔽可以持续50~200 ms

  22. 时域掩蔽

  23. 3.1.5 声道 • 声道(sound channel/track)是分开录音然后结合起来以便同时听到的一段声音 • 单声道——早期的声音重放(playback/reproduction)技术落后,只有单一声道(mono/monophony),只能简单地发出声音(如留声机、调幅AM广播) • 双声道——后来有了双声道的立体声(stereo)技术(如立体声唱机、调频FM立体声广播、立体声盒式录音带、激光唱盘CD-DA),利用人耳的双耳效应,感受到声音的纵深和宽度,具有立体感 • 环绕声——现在又有了各种多声道的环绕声(surround sound)重放方式(如4.1、5.1、6.1、7.1声道),将多只喇叭(扬声器speaker)分布在听者的四周,建立起环绕聆听者周围的声学空间,使听者感受到自己被声音包围起来,具有强烈的现场感(如电影院、家庭影院、HDTV、DVD/BD、dts-CD)

  24. C = Center中 • L = Left左 • R = Right右 • S = Surround环绕 • B = Back后 • LFE = Low Frequence Enhancement低频增强(也叫woofer,低音喇叭 / 低音炮),因低音通道LFE的方向性不强,且频率 < 200Hz [一般为15~120Hz],故称为0.1声道)

  25. 3.2 音频信号的数字化 • 声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。为了便于计算机处理,同时也为了信号在复制、存储和传输过程中少受损害,需要将模拟信号数字化 • 模拟信号(analog signal):在时间和幅度上都是连续的信号 • 数字信号(digital signal) :时间和幅度都用离散的数字表示的信号 • 模数转换(A/D=Analog-to-Digital):从模拟信号到数字信号的转换 • 数模转换(D/A=Digital-to-Analog):从数字信号到模拟信号的转换

  26. 音频信号的数字化 • 将音频信号数字化,实际上就是对其进行采样和量化。即:数字化=采样+量化 • 采样(sampling):连续时间的离散化通过采样来实现,就是每隔相等的一小段时间取一次声波振幅的样值,这种采样称为均匀采样 • 量化(quantization):连续幅度的离散化通过量化来实现,就是把信号的强度划分成一小段一小段,在每一段中只取一个强度的等级值(一般用二进制整数表示),如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化

  27. 连续音频信号的采样和量化

  28. 从声音到计算机数据再到声音之全过程的设备/技术示意图从声音到计算机数据再到声音之全过程的设备/技术示意图 话筒 采样—A/D(声卡) —量化 D/A(声卡) 喇叭/耳机 声波→电平信号→离散时间信号→数字信号→电平信号→声波 时间幅度连续 时间离散 时间幅度离散 时间幅度连续 幅度连续 • 声音数字化需要确定采样频率和量化精度 • 采样频率(sampling frequency) :每秒钟采集的声音样本数 (常用的采样频率有:8kHz、11.025kHz、22.05kHz、44.1kHz、48 kHz ) • 量化精度(quantizing precision):每个声音样本的二进制位数(bps = bit per sample) (常用的采样精度为8bps、12 bps、16bps、20bps、24bps )

  29. 奈奎斯特(Nyquist)采样定理 • 当采样频率不低于声音信号最高频率的两倍时,可把以数字声音信号无损地还原成原来的模拟声音信号,这叫做无损数字化(lossless digitization) • 采样定理可用公式表示为 fs ≥ 2 f或 Ts ≤ T/2 其中fs为采样频率、f为被采样信号的最高频率、 Ts为采样周期、T为最小采样间隔

  30. 声音质量和数据率 AM (amplitude modulation):调幅广播 FM (frequency modulation):调频广播 DAT (digital audio tape) :数字音带

  31. 3.3 数字音频技术与格式 • 数字音频数据的种类 • 波形数据:声波通过声/电和A/D而得到的量化后的采样数据。数字化的波形数据又有两类存储方式: • 文件存储:有多种文件格式,如wav、au、aiff和snd • 非文件存储:激光唱盘(CD-Audio)和数字录音带(DAT) • MIDI数据:MIDI 是乐器和计算机之间交换音乐信息所使用的标准语言。MIDI数据只是一些指令。所以,与波形文件相比,MIDI文件非常小。常见的MIDI文件格式为PC机上扩展名为.mid文件

  32. 3.3.1 文件格式 常见音频文件的扩展名: • aiff(Audio Interchangeable File Format):Apple计算机上的声音文件存储格式 • ape(猿) :Monkey Audio公司的无损音频文件存储格式 • au(audio):Sun和NeXT公司的声音文件存储格式,主要用在Unix工作站上 • flac(Free Lossless Audio Codec) :Xiph.Org 基金会的无损音频文件存储格式 • mid(MIDI):PC上的MIDI文件存储格式

  33. mp3(MPEG-1 Audio Layer III):压缩波形音频文件存储格式 • mp4/m4a:MPEG-4 Audio/Video或AAC编码 • ra(RealAudio) / .rm(RealMedia):RealNetworks公司的流式音频/媒体文件格式 • wav (waveform): Windows采用的(无损)波形声音文件存储格式 • seq(sequence):MIDI文件存储格式 • snd(sound) : Apple计算机上的声音文件存储格式 • wma (Windows Media Audio):Microsoft公司的流式音频文件格式

  34. WAV文件格式 • 波形音频文件(The Waveform Audio File Format)(*.WAV)是Microsoft为Windows设计的多媒体文件格式RIFF(The Resource Interchange File Format,资源交换文件格式)中的一种(另一种常用的为AVI)。RIFF由文件头、数据类型标识及若干块(chunk)组成 • 注意: • 多字节整数的低位在前,同Intel CPU • 单字节样本值v为无符号整数(0~255),实际样本值应为v-128;多字节样本值本身就是有符号的,可直接使用 • 各种文件格式可参见网站:http://www.wotsit.org

  35. WAV文件的基本格式

  36. 3.3.2 音频技术 • 杜比实验室(Dolby Lab)——是由Ray Dolby于1965年创建于英国的一家专攻音频的压缩和复制的美国公司 • Dolby Surround / Dolby Prologic(杜比环绕声 / 杜比逻辑[定向])——1976年/1986年推出、模拟(无压缩)、4声道(左中右后[后左右相同])、用于电影院 • Dolby Digital(杜比数字)= AC-3 (Audio Code Number 3,音频编码3号) ——1992年推出、数字编码(压缩12倍)、5.1声道、48KHz采样、用于电影院、DVD和HDTV • 2003年推出的Dolby Digital EX(杜比数字扩展)支持6.1声道 • 2004年推出的Dolby Digital Plus(杜比数字+)支持多达13.1声道 • Dolby TrueHD(杜比真高清)——2005年推出的一种为蓝光盘开发的无损音频编码格式,码率可达18Mbps、8个以上全频带的24-bit/96 kHz声道、被HDMI(High-Definition Media Interface,高清介质接口)所支持、被Blu-ray Disc选为可选音频格式

  37. DTS(Digital Theater System,数字影院系统)——由美国的DTS公司于1993年推出、数字编码(压缩4倍)、5.1声道、48KHz采样、用于电影院和DVD • DTS-ES(扩展环绕):6.1声道、用于家庭影院 • DTS-HD(高清):支持虚拟的无限多个环绕声通道、是BD的一种可选环绕声格式 • AAC(Advanced Audio Coding,先进音频编码) ——由AT&T、杜比实验室、Fraunhofer IIS和索尼四个公司于1997年4月共同开发出的一种有损音频压缩技术,支持8 kHz~96 kHz采用频率、1~ 48.16个声道、16个配音声道和16个数据流,是MPEG-2/4的重要组成部分,用于DVD和MP4等

  38. 3.3.3 音频光盘 • CD-DA(Compact Disc-Digital Audio,紧凑光盘—数字音频)——Philips与Sony公司于1981年联合推出的一种可以存储74分钟无损数字音频数据的直径12厘米的光盘,一般称为数字激光唱盘,简称为CD。它采用PCM技术、44.1kHz采样频率、16位量化、双声道立体声、最大码率1.4Mbps,存储容量为680MB • HDCD(High Definition Compatible Digital,高清晰兼容数字)——由Keith Johnson和Pflash Pflaumer于1991年开发出的一种专利技术、1996年他们二人创立了PMI (Pacific Microsonics Incorporated,太平洋微指令公司),微软公司于2000年9月收购了PMI,并获得了其HDCD技术。HDCD采用20位量化、88.2kHz采样、记录在CD-DA 16位样本数据的最低一位,需专门的解码器,不然只能用作(少一位有效样本数据的)普通CD

  39. DTS-CD——由DTS公司于1997年推出的一种存储74分钟的5.1声道、48KHz采样、20bit量化的DTS音频的CD-DA光盘,采用的是APT-X100数字压缩技术(压缩4倍),播放DTS-CD光盘需要支持DTS格式的CD或DVD播放机和支持DTS信号的功放,在只支持普通CD-DA的光盘机/功放上播放DTS-CD盘时,听到的是白噪声。DTS-ES CD支持6.1声道 • DVD-Audio——是DVD论坛(先锋、松下、东芝、日立等公司)于1999年3月提出的一种数字音频格式,采用DVD介质存储、PCM技术、5.1声道、96kHz采样、24位量化、135分钟、最大码率9.6Mbps • SACD(Super Audio CD,超级音频CD)——飞利浦与索尼公司于1997年9月推出的一种数字音频格式,采用DVD介质存储和DSD (Direct Stream Digital,直接数字流) 技术编码,5.1声道、2.82MHz采样、1位量化、74分钟

  40. 3.4 MIDI • MIDI = Musical Instrument Digital Interface(乐器数字接口)是音乐合成器(music synthesizers)、乐器和计算机之间交换音乐信息所使用的标准协议 • MIDI是乐器和计算机使用的标准语言,是一套指令(即命令的约定),它指示乐器即MIDI设备要做什么及怎么做,如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令 • MIDI常用作背景音乐:因为MIDI音乐可以和其它的媒体(如数字电视、图形、动画、话音等)一起播放,这样可以加强演示效果

  41. MIDI的优点 • 生成的文件比较小:因为MIDI文件存储的是命令,而不是声音波形 • 容易编辑:因为编辑命令比编辑声音波形要容易得多

  42. 简史 • 1920s:出现第1种流行的(声音单一)电子合成器、60年代 Robert Moog设计了首台广泛使用的模拟电子合成器、70年代初期出现了计算机音乐合成器,但各个厂商的产品互不兼容 • 1981年11月:Sequential Circuits公司的Dave Smith写出通用合成器接口USI协议提交给音频工程协会;经过对USI的改进和扩展,美国和日本的主要合成器制造商在1982年6月的美国全国音乐商协会NAMM展上,提出MIDI规范 • 1983年8月:公布MIDI 1.0详细规范(Detailed Specification),1995年1月推出版本v95.1,1995年9月v95.2,1996年3月v96.1,2001年11月推出v96.1的第二版

  43. 1991年9月:控制MIDI标准的两个组织——MIDI制造商协会MMA(http://www.midi.org/)与日本MIDI标准委员会JMSC——提出通用MIDI级别1 (GM1)规范(General MIDI 1 Specification),1999年11月推出GM2规范,2003年9月推出GM2规范的1.1版 • 2001年8月31日:MMA推出可扩展音乐格式XMF (eXtensible Music Format) 1.0、2003年8月推出XMF 1.0.1、2004年12月推出XMF 2.0 • 2003年7月:MMA和AMEI(日本的电子音乐工业协会)批准MIDI XML规范 • 2004年11月:MMA又推出了用于3G移动通信的SP-MIDI(Scalable Polyphony MIDI Specification,可伸缩多音调MIDI规范) • 新标准MIDI 2.0或HD-MIDI(High-Definition Protocol,高清协议)目前还在制定过程中

More Related