当前位置:智能 > 正文

真假难辨 AI精确复制声音

2019-06-14 10:35:30  来源:网易智能

脸书的研究人员成功克隆了微软总裁比尔·盖茨的声音。

脸书人工智能研究中心的肖恩·瓦斯奎兹(Sean Vasquez)和迈克·刘易斯(Mike Lewis)于本周表示,他们已经努力模仿人类语言有一段时间了。然而,模仿人类语言显然是件难事,当人们听到斯蒂芬·霍金所使用的那套最著名的说话机器发声时,会发现它听起来仍然很不像人类。

但是现在,研究员们似乎已经取得了进展。如果你听了盖茨的克隆所发出的声音,我想你是会同意的。因为它听起来很像比尔·盖茨,你甚至很难分辨出它和他真实声音的区别。

研究人员展示了他们的研究。在这里,机器模仿着盖茨的腔调发声,“请给你珍爱的朋友发一封充满爱意的短信。”其中最不可思议的是,这台机器在说“珍爱(cherish)”时,准确无误地捕捉到盖茨不断上升的语调变化的。

这项技术被称为MelNet,可以用来复制人类的语调。到目前为止,盖茨和其他许多人的声音都被它完美地再现了。瓦斯奎兹和刘易斯说,克隆的音频取自各类Ted演讲。

两位研究人员还表示,直到最近,文本到语音转换软件还不能很好地工作的原因是它使用了波形图记录声音。这些图显示了声音在几秒钟内的音阶变化。如果你听到过盖茨说“珍爱”这个词,就知道他的语气是变化剧烈的。在试图模仿一个人的时候,深度学习机器必须预测到所有这些细微的变化,这很不容易。

瓦斯奎兹和刘易斯说,他们通过使用一种叫做光谱图的东西来训练机器,成功地克隆了声音。

研究人员说:“光谱图的时间轴比波形图的时间轴紧凑几个数量级,这意味着在波形中跨越数万个时间步长的依赖关系在光谱图中只跨越数百个时间步长。这使得我们的光谱图模型能够在数秒内记录各种语音和音乐样本,并保持它们一致性。”

不过,他们也经历了一些挫折。研究小组表示,对他们来说,几乎完美地复制一个句子并不难,难的是复制那些在长达几十秒或几分钟的时间里,显示了情绪变化的复杂语调”。尽管如此,当涉及到人机交互时,研究小组说,在只涉及简短对话的情境中,这项技术可能会带来革命性的变化。(选自:SiliconANGLE作者:James Farrell编译:网易智能 参与:毅立)

关键词: AI,复制声音

推荐阅读

运动型轿车是什么 运动型轿车与普通车有何区别?

运动型轿车凭借着外观酷炫,动力性能强的特点,深受国内众多消费者的喜爱。特别是在年轻消费者心目中,运动型轿车基本上是购车的首选。但是 【详细】

汽油清洗剂是什么 汽油清洗剂加在汽油里是干嘛的?

最近有很多车主反映加油的时候总是建议用汽油清洁剂。但是,大部分人还是不太了解,还有就是一部分人纳闷汽油清洗剂加在汽油里是干嘛的?汽 【详细】

中国最便宜的汽车是哪个 最便宜的汽车汇总

现在汽车已经成为了大家最常见的交通代步工具了。但是,依然还是有很多的家庭非常的需要代步工具,却买不起特别贵的汽车。所以今天,我们就 【详细】

伊莱克斯冰箱质量怎么样 伊莱克斯冰箱质量好不好?

伊莱克斯冰箱质量怎么样:在2018年全球500强企业中,伊莱克斯排名第162位,在2020年全球2000强企业中,伊莱克斯排名第1965位,可见伊莱克斯 【详细】

劳动保护用品是什么 劳动保护用品有哪些?

劳动保护用品有哪些?劳动防护用品分为特殊劳动防护用品和一般劳动防护用品,一般劳动防护用品是指未列入目录的一般劳动防护用品。以下产品 【详细】

相关新闻

关于我们  |  联系方式  |  免责条款  |  招聘信息  |  广告服务  |  帮助中心

联系我们:85 572 98@qq.com备案号:粤ICP备18023326号-40

科技资讯网 版权所有