李秀林:功能性的时代已经过去,可选择性才是语音合成未来
AIoT正在成为科技公司们争抢的下一座城池。
2016年开始,智能手机行业红利开始见顶,手机厂商可争夺的存量市场不断被压缩,这时,硬件领域的新机会延伸到了智能音箱、智能家电,以及可穿戴设备。智能硬件也相应地成为互联网的新入口,国内外多家巨头已早早开始争夺这部分还未被完全挖掘的用户入口。
其中,语音识别及语音交互毫无疑问是各智能硬件最重要的控制手段之一,同时也是人工智能技术到目前为止落地最快的应用之一。
以智能音箱为例,仅2018年四季度,全球智能音箱出货量增长95%达到3850万台,超过2017全年总量。2018年出货量更是达到8620万台,同比增长100%以上。Strategy Analytics预测,2019年全球智能音箱的出货量将超过1.34亿,到2024年将增加到2.8亿。
《语音合成—引爆智能语音交互的导火索》
搜狐科技“智研所”沙龙第6期邀请到标贝科技CTO李秀林进行主题演讲——
李秀林:大家好,非常高兴通过搜狐科技与大家沟通语音合成的一个主题,那么今天我与大家分享的题目是“语音合成引爆智能语音交互的导火索”。
(智研所现场)
首先做一下自我介绍,我叫李秀林,中国科学院声学所博士,标贝科技联合创始人兼CTO,负责整体语音技术框架。之前十几年我基本都是在语音行业,之前在百度、滴滴都是主要从事语音相关的研究工作以及探索在出行互联网行业不同的应用。
给大家介绍一下标贝科技,是一家专注于智能语音合成和数据服务的人工智能公司,这家公司依托自己自有的高质量的数据来开发自有的高品质的语音合成系统。我们可以提供多场景、多类别的高品质语音合成解决方案,在我们的解决方案当中我们会结合用户的需求和我们的技术去为用户量身定制他所需要的声音。
在2019年中国智能语音市场规模将突破200亿元,2023年预计将达到600多亿元,
我们先来看一下整个语音交互的市场,根据前瞻经济学人的数据表明,近些年语音行业的发展非常快速,这个市场发展是非常迅速的,这也可以从一个侧面反映出语音行业的火爆程度。通过这三项技术就可以让我们的硬件设备有会听、会说、会思考,具备与人交互的能力,去满足一些真实的场景,实现AI技术的真正落地。
大家从样音可以听到,其实我们提供了不同的声音,有不同的特点,可以为用户去匹配不同的声音,这也是我们这几年所做的所思的所想的。
再下面介绍一个案例,为央视财经频道所做的工作,我们提供了两个声音,其中一个在交易时间时段的“晓鲸”智能机器人,实际上从它的形象来看应该是一个小孩的形象,可能比较活泼,我们结合这个产品的特点定制了一个小孩的声音。此外,主持人的声音或者是她的时间非常有限,我们专门为著名的主持人李雨霏打造了她自己的声音,也是上线了对应的产品。
所以我们说“无合成,不交互”,语音合成的语音是信息的载体,所有的机器反馈的信息都会通过语音的展示形式反馈给用户。
通过这些展示其实我们想陈述一个观点,语音合成随着技术的发展,它的合成效果越来越好,那么它在交互过程中的作用实际上是越来越重要的。
另外,我们可以提供多种多样的展现形式,让语音不再生硬,不再呆板,变得非常灵活,可以有多种多样的展现形态。从效果来说,它更媲美真人,让大家在一定程度上觉得是真假难辩的一个程度。所以说通过这种即时的响应,让语音交互变得更加即时,体验更加好一些。
接下来简单回顾一下语音合成的技术发展,在19世纪80年代,当时类似钢琴一样的设施,需要去弹奏才能合成出来某些特定的声音。进入20世纪80年代之后,通过一些计算机技术可以对声音进行编码,通过共振峰合成的形式来合成出语音。90年代之后计算机技术发展越来越快,通过大量运算、大量的存储可以让语音合成的效果进一步提升,达到了一定程度上的商用可能。近期我们发现它已经进入一个自学习阶段,这个阶段会让语音合成的应用更加广泛,后面会展开解释。
先来看一下在运算阶段,实际上整个网络分成几个模块,从图中可以看到,利用音库我们需要提取文本信息、基频谱等等特征去训练一个模型,在这个阶段最主要的计算特点是基于统计特征的一些模型,包括音码可复模型、高斯混合模型,那么有了这些模型的指导,我们一个比较常见的商用系统就是拼接合成系统就把原始的录音切成很小的片段,在合成阶段把这些片段进行有效地拼接,它的一个好处是合成的语音比较接近真人的音色,但是缺点也显而易见,因为音库不可能非常大,音库的制作周期长耗费大,所以拼接出来的语音特点往往是好的地方很好,有些地方不好的时候让人感觉很不舒服,它的拼接并不流畅。
(图片来源:标贝科技)
从2016年开始,语音合成进入了一个非常特殊的时期,我们把它命名为自学习的阶段。那么这个阶段主要特点是利用神经网络的技术,通过复杂的神经网络模型去拟合声音的生成过程。
比如在2016年WaveNet提出,给我们提供了一个新的考虑语音合成的特点,之前的语音基本都是按帧或者按照音节或者音子合成的,在这个框架下实际是逐点预测,一个16k采样率的语音,每秒的语音需要对应16000次的复杂运算才能生成语音,但是它的音质大大改善,远远超出之前的系统。
接下来2017年有端到端的Tacotron的方法,直接文本输出语音,在这种模式下又让很多机器学习的研发人员加入到语音合成的领域,从而使得这个行业的发展更加快速。
在2018年端到端的基础上神经网络声码器大行其道,使得端到端加上神经网络声码器的方案受到广泛采纳。
从上述这三个主要的模型来看,整个的合成效果都是得到了很大的提升,它也为我们开拓了一些新的应用领域的可能。
总结一下,就是传统的语音合成方法,音库制作、整个的系统制作流程都很复杂,成本比较高,周期比较长,而且还有一些声音的不尽如人意的情况,但是神经网络的方法其实也不是尽善尽美,我们现在看到的是神经网络的方法需要大量的计算、大量的数据,这些在满足大量数据的情况下我们发现会有一些问题。
因为我们现在语音合成的数据基本是单个人去采集声音,但是单个人采集声音的量往往不会太大,可能几万句话就是一个非常大的数据库了。这种情况下我们发现它有些问题,所以我们提出一个解决的办法,我们是在端到端的基础上用它最核心的部分,也就是Attention的机制,整个系统我们不用端到端,希望文本的部分用文本的属性,语音的部分用语音的属性,这样的话我们可以充分利用我们文本的数据积累去改善整个合成效果。
同时,在真正落地的时候,GPU在生产环境下落地其实是有一定困难的,我们也做了针对性的优化,让它在CPU情况下能够进行高效的合成。我们所做的具体的就是把输入数据的纬度从数万维降低到数十维,我们对文本之前积累的数据模型进行了非常好的整合与神经网络的后端进行了一个适配,达到了一个比较好的效果。
做的主要是数据和语音合成,我们在技术层面把控好我们整个数据生产流程,从数据的设计、采集加工和质检,保证AI所需要的各项数据都是能够高质量对模型训练非常有价值,结合我们的算法、模型和架构我们将这些数据转换成可以直接落地的技术形态。
接下来说一下产品技术体系,因为我们比较专注,
(图片来源:标贝科技)
根据上面的技术和产品,我们实际上构造了三位一体的竞争优势,也就是依托我们的核心数据壁垒以及我们的声音超市、明星语音IP库等等。
这就是我们声音超市的一个界面,用户可以从这里面直接体验不同的声音,去选择自己所喜欢的音色。到目前为止,我们在合成方面已经积累了超过三千小时的合成数据库,合成数据库的录制加工其实是非常复杂,对发音人的音色、一致性、环境等等都会有非常高的要求,那么后期还需要有文本层面的声音层面的各种处理环节。
(图片来源:标贝科技)
现在语音条目已经超过了两百万条,定制库已经达到了两百多个,包括中文、英文、韩文等不同的语言,每种语言又有不同的风格不同的年龄特点。整体来说,在合成数据方面准确率可以达到99.5%的标注水平,在识别方面我们的量更大一些,准确率也能达到99%。
我们认为核心市场其实有五个,泛娱乐、智慧教育、智能客服、智能家居、有声读物,这五个方面目前我们也有诸多探索,也取得了一些比较好的成果。
语音合成我认为或者说我们标贝科技觉得现在走入一个新的阶段,在这个阶段不是说功能性的,功能性的时代已经过去了,语音合成功能并不稀奇,现在最主要的是说我们需要让用户有更多的可选择性,需要满足个性化的需求。
关键词: 李秀林
推荐阅读
运动型轿车是什么 运动型轿车与普通车有何区别?
运动型轿车凭借着外观酷炫,动力性能强的特点,深受国内众多消费者的喜爱。特别是在年轻消费者心目中,运动型轿车基本上是购车的首选。但是 【详细】
汽油清洗剂是什么 汽油清洗剂加在汽油里是干嘛的?
最近有很多车主反映加油的时候总是建议用汽油清洁剂。但是,大部分人还是不太了解,还有就是一部分人纳闷汽油清洗剂加在汽油里是干嘛的?汽 【详细】
中国最便宜的汽车是哪个 最便宜的汽车汇总
现在汽车已经成为了大家最常见的交通代步工具了。但是,依然还是有很多的家庭非常的需要代步工具,却买不起特别贵的汽车。所以今天,我们就 【详细】
伊莱克斯冰箱质量怎么样 伊莱克斯冰箱质量好不好?
伊莱克斯冰箱质量怎么样:在2018年全球500强企业中,伊莱克斯排名第162位,在2020年全球2000强企业中,伊莱克斯排名第1965位,可见伊莱克斯 【详细】
劳动保护用品是什么 劳动保护用品有哪些?
劳动保护用品有哪些?劳动防护用品分为特殊劳动防护用品和一般劳动防护用品,一般劳动防护用品是指未列入目录的一般劳动防护用品。以下产品 【详细】
相关新闻
- 环球观点:至今还没有阳的人,他们天赋异禀,还是另有隐情?研究结果来了
- 新动态:iPhone 15 太炸了,标准版有大提升
- 全球即时看!vivo拒绝高价低配:骁龙870+144Hz屏,12GB+256GB跌至1769元
- 实现高并发秒杀的七种方式
- 全球看热讯:3D渲染引擎 HOOPS Visualize 2023全新发布-增加对顶点着色器支持
- 世界看热讯:「升级」Hubstudio多账号安全管理浏览器之扩展中心上线啦!
- 汽车早报 - 消息称蔚来布局百万元级别电动车 广汽称将继续为讴歌中国客户提供售后服务
- 今头条!车轮上的2022∣新能源与汽车出口带动:全国乘用车零售量同比增长1.9%
- 谷歌文档新功能:看到非打印字符
- 世界新消息丨一加新机质感高级,更有多项黑科技加持,3999的价格入手值吗?
- 焦点信息:中国手机品牌在2022年拿下俄罗斯市场份额65% 但高价机一个没有
- 2022年这5款熟悉的产品向我们告别
- 即时:陈副区长事件,引出一个老生常谈的问题,腾讯是否会保留聊天记录
- 我国首个具备独立运行能力的新能源储能项目在内蒙古并网通电
- 上海奉贤区初中转学条件2023
- 新冠病毒变异逻辑的猜测
- 世界讯息:充1次用10天!史上续航最强的国产手机,太猛了
- 全球视点!10个暗藏惊喜的微信小程序,个个好用不要钱,还请低调使用
- 世界热头条丨刘强东告别他的时代?回笼640亿携孕妻现身英国,祖宅半夜被泼漆
- 更便捷!威海市立医院互联网医院上线“新冠感染门诊”