WAVENET-语音合成
2021/11/7 23:14:13
本文主要是介绍WAVENET-语音合成,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
1 简介
本文根据2016年《WAVENET: A GENERATIVE MODEL FOR RAW AUDIO》翻译总结的。用于语音合成的。WAVENET比参数和连接系统表现好。
本文由如下贡献:
1)我们显示WaveNets可以生成主观自然的语音,这在text-to-speech (TTS)领域尚未报道过。
2)为了处理语音生成中长范围的时间依赖,我们发展了一个新架构,其基于扩大的因果卷积(dilated causal convolutions),可以拥有非常大的感受域。
3)当加上说话者的条件,一个单独模型可以用来生成不同的声音。
2 WaveNets
WaveNets基于 PixelCNN结构。
2.1 dilated causal convolutions
WaveNets的主要成分是因果卷积,因果卷积(causal convolutions)如下图,每一个时间下的样本不依赖于未来的信息:
扩大的因果卷积如下图,增加了感受视野:
2.2 CONDITIONAL WAVENETS
增加了输入条件h,包括两种,全局的(如说话者的身份)或者本地的(语言特征)。
上面的公式1就变成下面的了:
3 实验
我们进行3个任务:多说话者语音生成(不是基于文本)、TTS、音乐声音建模。
TTS的实验结果如下:
为了完成平均意见得分(mean opinion score,MOS),要大量听众来评估通过通讯电路由男性和女性说话人大声朗读句子的质量。听众按以下标准给每个句子打分:(1)很差(2)差 (3)一般 (4)好 (5)很好。MOS是所有个人打分的算术方法,范围从1(最差)到5(最好)。
这篇关于WAVENET-语音合成的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-06-26结对编程到底难不难?答案在这里
- 2024-06-19《2023版Java工程师》课程升级公告
- 2024-06-15matplotlib作图不显示3D图,怎么办?
- 2024-06-1503-Loki 日志监控
- 2024-06-1504-让LLM理解知识 -Prompt
- 2024-06-05做软件测试需要懂代码吗?
- 2024-06-0514-ShardingSphere的分布式主键实现
- 2024-06-03为什么以及如何要进行架构设计权衡?
- 2024-05-31全网首发第二弹!软考2024年5月《软件设计师》真题+解析+答案!(11-20题)
- 2024-05-31全网首发!软考2024年5月《软件设计师》真题+解析+答案!(21-30题)