AIGC音频合成知识入门
今年席卷而来的AI风潮刮到了各个模态,音频创作作为重要形态之一,也逐渐涌现出众多产品与模型,但音频合成的基本原理你是否了解呢?一起来看看吧。
一、定义
组成声音的结构包括音素、音节、音位、语素等,音频生成是对这些基本单位进行预测和组合,通过频谱逼近或波形逼近的合成策略来生成对应的声音波形。
(资料图)
语音合成的本质是通过对于语句结构和关系的学习来预测其声学特征,还原声音波形的过程。语音+音频结合后才得到我们常见的歌曲、朗读等形态。
音频生成目前主要包括:根据文本合成语音(text-to-speech),进行不同语言之间的语音转换,音色克隆(Singing Voice Conversion),根据视觉内容(图像或视频)进行语音描述,以及生成旋律、音乐等。
二、发展历程
音频生成随着计算机技术的发展,逐渐形成了以“文本分析-声学模型-声码器”为基本结构的语音合成方法。
基于对这个结构部分模块的替代或优化,音频生成的关键技术大致经历了拼接合成阶段、参数合成阶段、端到端合成阶段三个时期。
1. 波形拼接语音合成
顾名思义,波形拼接法是通过对语句的音素、音节、单词等进行特征标注和切分之后,在已有的语音数据库中查找基本单位,拼接合成语音。
其背后需要录制大量的音频,尽可能覆盖全所有的音节、音素等,数据库中的录音量(样本)越多,最后合成的音频效果越好。
优点:基于真人录制的语音音质较好,听觉上比较真实。缺点:拼接效果依赖于语音库的数据量,需要录制大量的语音才能保证覆盖率;字词的衔接过渡较为生硬,不够自然。2. 参数语音合成技术
参数合成法是主要是通过数学方法对已有声音数据进行声学特征参数建模,构建文本序列映射到语音特征的映射关系,生成参数合成器。
训练好的模型对输入数据进行分词、断句、韵律分析等,映射出对应的声学特征,再由声学模型(声码器)合成音频。
优点:原始录音数据量小;字间协同过渡平滑,自然。缺点:存在音质损失,没有波形拼接的好;机械感强,有杂音。3. 端到端语音合成技术
端到端语音合成技术是目前最为主流的技术,通过神经网络学习的方法,采用编码器-注意力机制-解码器(Encoder-Attention-Decoder)的声学模型,实现直接输入文本或者注音字符。
中间为黑盒部分,最后输出频谱和声音波形合成音频,简化了复杂的语言分析部分和特征抽取过程。
端到端合成大大降低了对语言学知识的要求,可以实现多种语言的语音合成。通过端到端合成的音频,效果得到的进一步的优化,更加自然,趋近真人发声效果。
目前,语音生成领域应用广泛且效果优秀的产品均基于端到端合成框架实现的,模型性能和应用能力的提升使其逐渐成为主流。
优点:对语言学知识要求降低;合成的音频自然,趋近人声,效果好;同参数合成一样所需录音量小。缺点:黑盒模型,合成的音频不能人为调优;复杂合成任务需要较多资源。当前的开源模型在不断迭代更新,端到端合成目前比较火的有Tacotron2、Transformer-TTS、WavLM等模型。
三、影响应用能力的关键因素
四、输入类型
五、效果指标
1. MOS值
定义:找一些业内专家,对合成的音频效果进行打分,分值在1-5分之间,通过平均得到最后的分数。
这是一个相对主观的评分,没有具体的评分标准。根据个人对音色的喜好,对合成音频内容场景的掌握情况,以及对语音合成的了解程度是强相关的。
虽然mos值是一个比较主观的测试方式,但也有一些可评判的标准。例如在合成的音频中,多音字的读法、当前场景下数字的播报方式、英语的播报方式,以及在韵律方面,词语是否连在一起播报、应该重读的地方是否有重读、停顿的地方是否合理、音色是否符合应用于当前的这个场景。都可以在打分的时候做为得分失分的依据。
2. ABX测评
定义:熟知的AB测试,选择相同的文本以及相同场景下的音色,用不同的模型合成来对比哪个的效果较好,也是人为的主观判断。
但是具有一定的对比性,哪个模型更适合当前的场景,合成的效果更好。
3. 其他指标
围绕合成音频的可懂性、自然度、相似度。以中文为例,还有些指标包括PER(拼音-不包含声调-错误率,越低越好)、PTER(拼音-包含声调-错误率,越低越好)、Sim(与真人声音的相似度,越高越好)等。
六、应用场景
1. 文本-语音合成(TTS)
目前技术发展已经较为成熟,市面上已有较多公司(讯飞、出门问问、思必驰等)推出了商业化产品,主要聚焦的应用场景是AI语音合成
虚拟人主播
2. 音色迁移/语音克隆(SVC)
这段时间爆火的“AI孙燕姿”就是音色克隆的代表之一,只需要一定数量的训练集录音,就可将输入的文本或语音转换为目标模型音色
部分商业化产品目前也在试行推广这一功能。
目前也有开源模型支持个人训练,仅需满足硬件限制(6GB以上显存的NVDIA显卡、Windows系统)。
例如比较主流的模型so-vits-svc,部署后可直接通过webui即可进行训练操作。
github仓库地址:so-vits-svc/README_zh_CN.md at 4.1-Stable · svc-develop-team/so-vits-svc · GitHub
至此音频合成的知识入门就告一段落,感兴趣的同学可以尝试语音克隆的模型训练去了解更多,实践出真知~
本文引用数据源:
易观千帆:https://qianfan.analysys.cn/
本文由 @白金之星 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
关键词:
推荐阅读
月壤形成的主要原因 月壤与土壤有什么区别
月壤形成的主要原因月壤形成过程没有生物活动参与,没有有机质,还极度缺水干燥;组成月壤的矿物粉末基本是由陨石撞击破砰形成,因此,粉末 【详细】
域名抢注是是什么意思?投资角度来看什么域名好?
域名抢注是是什么意思域名抢注是通过抢先注册的方式获得互联网删除的域名的使用权。域名是由点分隔的一串数字,用于标记一台计算机或一组计 【详细】
捷达保养费用是多少?捷达是哪个国家的品牌?
捷达保养费用是多少?全新捷达的保修期为2年或6万公里,以先到者为准,新车可享受一次免费保养,首次免费保养在5000-7500km或1年内进行。如 【详细】
天然气泄露会造成爆炸吗?天然气泄漏怎么办?
天然气泄露会造成爆炸吗?家里用的天然气如果泄露是会发生爆炸的。当空气中含有混合天然气时,在与火源接触的一系列爆炸危险中,就会发生爆 【详细】
四部门明确App收集个人信息范围 个人信息保护范围判断标准
四部门明确App收集个人信息范围近日,国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合印发《常见类型移动互联网 【详细】
相关新闻
- AIGC音频合成知识入门
- 微信既然会道歉!(如图),可不是老百姓,高校校长都是高官! 天天快消息
- 世界最新:国家电网机房智能管控巡检平台
- 面向媒体、金融、政务领域 拓尔思拓天大模型正式发布|今日快讯
- 什么叫诰命夫人(什么是诰命夫人?)
- 中信重工新型余热发电汽轮机组下线-天天讯息
- 挑战肩芯——胡灵倒立台式压力机_当前资讯
- 每日关注!莘庄工业区:7个重大产业项目同时开工 投产后预计新增税收约4亿元
- 天天热门:中科院物理所耐磨非晶合金材料取得突破性进展!
- 刚刚!腾讯微信团队发声明!
- 市场监管总局展示“长江禁捕 打非断链”专项行动成果 全球简讯
- 数字化“失效”?微盟难解增长困局|当前动态
- 中兴终端产品中心罗炜:AI裸眼3D将提供沉浸和开放的交互体验-天天微头条
- 鸡冠洞志_关于鸡冠洞志简述
- 2023MWC上海 | 思特奇:锤炼数字技术,共赢数字经济时代
- 聚焦:国讲的什么(十四阙《祸国》的结局是什么?)
- 精彩看点:凤凰光学:已将光学镜头业务拓展到人工智能领域
- 新资讯:台式机硬盘改移动硬盘原C盘的太空之城_台式机硬盘改移动硬盘
- 当前速讯:【温网】白卓璇、袁悦晋级,9位中国选手参加单打正赛
- 天天日报丨美情报机关新冠起源调查解密,称实验室泄漏说缺证据,病毒非人造