语曲转换中的语音 - 乐谱对齐算法研究

语曲转换中的语音-乐谱对齐算法研究 毕业设计答辩：清华大学计算机系沈一峰指导老师：蔡莲红教授

OUTLINE 研究背景&选题意义研究内容实验结果与讨论演示总结与展望

研究背景&选题意义 • 语曲转换 • 是指话音通过语音参数的修改转换成目标曲谱的歌唱声音 • 语曲转换的关键步骤 • 乐谱编辑 • 语音采集 • 音节切分 • 语音-乐谱对齐 • 参数修改->乐曲生成

毕业设计工作 • 语曲转换中的语音-乐谱对齐算法研究毕业设计工作输入：输出： “语曲转换” 原始语音话音 “歌声” 音节切分语音特征提取语音特征修改(转换) 话音话音特征参数音段/音节边界信息乐谱语音-乐谱对齐策略特征参数的预测值毕业设计工作

OUTLINE 研究背景&选题意义研究内容 1 算法流程 2 各层对齐策略实验结果与讨论演示总结与展望

分层次的语音-乐谱对齐算法流程

语音&乐谱分层结构 你的姿态你的青睐我存在在你的存在你以为爱就是被爱你挥霍了我的崇拜你的姿态，你的青睐，我存在在你的存在你以为爱，就是被爱，你挥霍了我的崇拜崇拜

分层次的切分/对齐策略 韵律短语层句子层 > = > < = > > = < < = < 音节层

语音段/静音段标记 SM_SYLICAND SM_IDLE SM_SYLLABLE SM_SINENCE SM_SILCAND 语音/静音段切分状态机 • 语音参数： • 帧能量（20）、过零率（5） • 语音/静音段切分状态机：

句子层/短语层切分点选择 • 考虑因素 • 静音段的时长 • 乐谱中句子/短语的歌唱时长 • 乐谱中句子/短语的歌词数 • 选择标准： • 句子层： • 短语层：

音节层备选切分点提取 一类声母/ 二类声母静音/噪声伪静音韵尾韵母 • 语音参数： • 能量、过零率、基频/周期、最大振幅 • 基于归并的音节切分自动机：

音节层切分点选择&对齐策略 • 设经过音节切分自动机后的音节数为M，该段的歌词数为N： • M=N • 音节与歌词一一对应 • M>N • 将相邻音节合并 • M<N • 音节拆分

OUTLINE 研究背景&选题意义研究内容实验结果与讨论 * 实验数据 * 实验设置 * 实验指标 * 实验结果演示总结与展望

实验数据 • 20个曲谱 • 东方之珠和你一样在那桃花盛开的地方少年崇拜 • 左边开始懂了我只在乎你我是明星暖暖 • 梦里水乡爱情转移爱转角童话老鼠爱大米 • 记事本隐形的翅膀青花瓷青藏高原黄昏 • 20段录音 • 女声、录音内容与曲谱一一对应 • 采用笔记本电脑录音，环境有一定噪声 • 共1320个音节，录音总时长21分20秒

实验设置 • 四种切分方式 • 人工切分 • 采用VisualSpeech对20段录音进行人工标记 • 基于归并的音节切分自动机切分 • 乐谱指导的分层次音段切分（算法1） • 改进后的乐谱指导的分层次音段切分（算法2） • 对比实验 • 以人工切分结果为标准结果 • 比较后三种切分结果的准确率

实验指标 • 切分音节的分类 • 切分准确且对齐正确的音节 • 切分准确但对齐错误的音节 • 丢失、多切、切错的音节 • 召回率&准确率 • 召回率=切分准确且对齐正确的音节个数/目标音节个数 • 准确率=切分准确且对齐正确的音节个数/切分的音节个数 • 切分准确的标准： • abs(人工标注切分点位置-自动切分点位置)<100ms &abs(人工标注音节长度-自动切分音节长度)<100ms

实验结果—自动机切分结果 一: 切分准确且对齐正确的音节数二: 切分准确但对齐错误的音节数三: 多切的音节数四: 丢失的音节数五: 切错的音节数

实验结果—算法1切分结果 句子边界/韵律短语边界切分结果：

实验结果—算法1切分结果 一: 切分准确且对齐正确的音节数二: 切分准确但对齐错误的音节数三: 多切的音节数四: 丢失的音节数五: 切错的音节数

实验结果—算法1结果与自动机结果比较

算法结果分析 • 提高了准确率和召回率 • 平均准确率提高94.14% • 平均召回率提高88.57% • 切分错误的原因 • 句子/短语边界切分点选择错误 • 音节切分自动机的准确率不高

算法改进 • 句子/短语边界切分点选择错误 • 增加音节预测模块 • 预测每个候选语音段的音节数 • 修改句子/韵律短语边界选择策略 • 加入备选音节数作为因子 • 音节切分自动机的准确率不高 • 调整参数阈值

算法2与算法1结果比较(1)

算法2与算法1结果比较(2)

演示平台 SingSyn

总结&展望 • 总结 • 阅读文献 • 实现算法 • 设计实验 • 总结改进 • 展望 • 更高效准确率更高的音节切分算法 • 更好的对齐策略

Thank you! Q&A

毕设论文目录(1) • 第1章引言 • 1.1 研究背景及意义 • 1.2 国内外研究现状 • 1.2.1 语曲转换的现状 • 1.2.2 音节切分的现状 • 1.2.2.1 声学特征阈值法 • 1.2.2.2 基于HMM模型的音节切分法 • 1.3 论文工作 • （已完成）

毕设论文目录(2) • 第2章分层次的音段切分算法（已完成） • 2.1 分层模型 • 2.1.1 分层级短语语流韵律架构（HPG） • 2.1.2 分层模型 • 2.2 基于归并的音节切分自动机 • 2.2.1 基本原理 • 2.2.2 音节个数范围的估计 • 2.3 分层次的音段切分算法 • 2.4 本章小结 • （已完成）

毕设论文目录(3) • 第3章基于乐谱指导的分层次对齐策略 • 3.1 乐谱信息的使用 • 3.2基于乐谱指导的分层次对齐策略 • 3.2.1 算法流程 • 3.2.2 各层次的对齐策略 • 3.3 算法改进 • 3.4 本章小结 • （已完成）

毕设论文目录(4) • 第4章实验结果与讨论 • 4.1 实验目的 • 4.2 实验数据 • 4.3 实验设置 • 4.4 实验指标 • 4.5 实验结果与讨论 • 第5章总结与展望 • 5.1 总结 • 5.2 展望

语曲转换中的语音 - 乐谱对齐算法研究

语曲转换中的语音 - 乐谱对齐算法研究

Presentation Transcript