阿里巴巴达摩院都干什么了?
达摩院成立快两年之际,机器智能技术实验室抢先展示了一下成绩。
2017 年 10 月,阿里成立了达摩院,覆盖 5 个研究领域,建有 14 个实验室。除了上述的“机器智能”,达摩院研究大方向还有数据计算、机器人、金融科技、X 实验室。
机器智能技术实验室侧重于 AI 相关技术的基础研究,旗下设有语音实验室、视觉实验室、语言技术实验室、决策职能实验室、以及城市大脑实验室。
近日,达摩院机器智能技术实验室举办了一场小型媒体沟通会,几位技术专家向外界介绍了最新成果和进展。
兼具表现力和稳定性的语音合成技术
首先,机器智能技术实验室正式发布了新的语音合成技术 KAN-TTS(KAN 指的是 Knowledge-Aware Neural)。TTS(Text-To-Speech,文本到语音)是一种将文字转化成语音的技术,智能音箱、个人虚拟助理都需要这种技术支持。
达摩院机器智能语音实验室高级算法专家雷鸣介绍,当前业界商用系统的合成语音与原始音频录音的接近程度,通常在85%到90%之间,而基于KAN-TTS技术的合成语音可将该数据提高到97%以上。
简单来说,KAN-TTS 合成的语音更加像真人的语音,“接近真人韵律的感觉”。
“我们新一代的 TTS 解决方案深度融合了传统 TTS 和端到端 TTS,基于不同领域的深层 Knowledge。”雷鸣介绍道。
所谓端到端 TTS,即不依靠领域知识,基于强大的深度学习模型、海量数据来生成音频,优势是大大节省设计的工作,并且得到更加流畅、表现力更好的合成语音,但需要大量计算力支持,而且会出现丢字、漏字等不稳定的情况。Google 的 Tacotron 和 DeepMind 的 WaveNet 都是典型的端到端 TTS 模型。
而传统 TTS 需要花费大量时间和精力去了解相关的领域知识,设计难度较高,但胜在合成的语音比较稳定。
通过将传统 TTS 和端到端 TTS 的结合,KAN-TTS 结合了两者的优势,充分利用不同领域的深层 Knowledge,合成表现力和稳定性具佳的语音。
针对不同的需求,机器智能技术实验室提供了“开箱即用”的 TTS 产品,覆盖 5 大场景(通用场景、客服场景、童声场景、英文场景和方言场景),具备 34 个高品质的声音。
除了“开箱即用”的声音,达摩院这个语音合成方案还能让专业用户定制声音。
传统语音合成定制需要10小时以上的数据录制和标注,对录音人和录音环境要求很高。“从启动定制到最终交付,需要半年时间”。而达摩院利用Multi-Speaker Model与Speaker-aware Advanced Transfer Learning相结合的方法,将语音合成定制成本降低10倍以上,周期压缩3倍以上。
也就是说,用1小时有效录音数据和不到两个月制作周期,就能完成一次标准 TTS 定制。
此外,普通用户也可以自己定制“AI声音”,只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。
语音、自然语言、视觉各领域都有新成绩
除了公布新语言合成方案,机器智能技术实验室还亮出了新成绩。
机器智能技术实验室透露,阿里AI在国际顶级技术赛事上获得了40多项世界第一,入选了近400篇国际顶会论文。具体到细分领域,机器智能技术实验室最近都有不同建树。
语音领域,2019年1月机器智能技术实验室在国际顶级对话系统评测大赛(DSTC-7)上获得双料冠军,将人机对话准确率的世界纪录提升至94.1%,并于2019年7月开源了创造这一记录背后的人机对话模型 ESIM。
事实,该算法模型提出了两年多,已被包括谷歌、facebook在内的国际学术界在200多篇论文中引用。
自然语言理解方面,机器智能技术实验室在 6 月的 MS MARCO 文本阅读理解挑战赛中,击败了 Facebook和微软,创造了阅读理解能力测试的新纪录,并在开放域问答任务上超越人类阅读水平。
MS MARCO 挑战赛是 AI 阅读理解领域的权威比赛,参赛机构提供的 AI 模型需要在搜索引擎返回的网页文档中,找出 100 万个问题的正确答案。
阿里方面介绍,阿里 AI 模型的突破在于提出了基于 “融合结构化信息 BERT 模型” 的 “深度级联机器阅读模型”,可以模仿人类阅读理解的过程,先对文档进行快速浏览,判断,然后针对相应段落进行精读,并根据 “自己的理解” 回答问题。
达摩院机器翻译技术团队已实现了48个语言翻译方向,支持俄、西、法、阿、土,泰、印尼、越南等多种语言翻译,其中电商覆盖了大部分语向和场景,超越了谷歌和亚马逊,日调用量达到17.9亿次。
在机器视觉领域,机器智能技术实验室在图像搜索、大规模图像识别、视频分析、线下视觉智能等领域都有所建树。其中,图像搜索领域,阿里 AI 的向量引擎比Facebook快6倍。
机器智能技术实验室在 6 月份刚刚结束的 WebVision 竞赛中,阿里 AI 以 82.54% 的识别准确率,击败了全世界150多支参赛队伍,获得冠军。机器智能技术实验室称,阿里 AI 目前可以识别超过 100 万种物理实体。
WebVison 是目前图像识别领域最权威的竞赛之一,专注于物体识别,被誉为接棒 ImageNet 的大规模图像识别竞赛。
7 月,在CVPR2019举办的LPIRC(低功耗图像识别挑战赛)中,阿里AI获得在线图像分类任务第一名。在挑战赛使用的训练数据集上,阿里AI实现了67.4%的分类精度,比官方提供的基准线高3.5%。
值得注意的是,上述只是达摩院旗下机器智能技术实验室的进展和成绩。到 2019 年 10 月达摩院两周年之际,会有更加全面的消息公布。
关键词: 阿里巴巴达摩院
推荐阅读
运动型轿车是什么 运动型轿车与普通车有何区别?
运动型轿车凭借着外观酷炫,动力性能强的特点,深受国内众多消费者的喜爱。特别是在年轻消费者心目中,运动型轿车基本上是购车的首选。但是 【详细】
汽油清洗剂是什么 汽油清洗剂加在汽油里是干嘛的?
最近有很多车主反映加油的时候总是建议用汽油清洁剂。但是,大部分人还是不太了解,还有就是一部分人纳闷汽油清洗剂加在汽油里是干嘛的?汽 【详细】
中国最便宜的汽车是哪个 最便宜的汽车汇总
现在汽车已经成为了大家最常见的交通代步工具了。但是,依然还是有很多的家庭非常的需要代步工具,却买不起特别贵的汽车。所以今天,我们就 【详细】
伊莱克斯冰箱质量怎么样 伊莱克斯冰箱质量好不好?
伊莱克斯冰箱质量怎么样:在2018年全球500强企业中,伊莱克斯排名第162位,在2020年全球2000强企业中,伊莱克斯排名第1965位,可见伊莱克斯 【详细】
劳动保护用品是什么 劳动保护用品有哪些?
劳动保护用品有哪些?劳动防护用品分为特殊劳动防护用品和一般劳动防护用品,一般劳动防护用品是指未列入目录的一般劳动防护用品。以下产品 【详细】
相关新闻
- 环球观点:至今还没有阳的人,他们天赋异禀,还是另有隐情?研究结果来了
- 新动态:iPhone 15 太炸了,标准版有大提升
- 全球即时看!vivo拒绝高价低配:骁龙870+144Hz屏,12GB+256GB跌至1769元
- 实现高并发秒杀的七种方式
- 全球看热讯:3D渲染引擎 HOOPS Visualize 2023全新发布-增加对顶点着色器支持
- 世界看热讯:「升级」Hubstudio多账号安全管理浏览器之扩展中心上线啦!
- 汽车早报 - 消息称蔚来布局百万元级别电动车 广汽称将继续为讴歌中国客户提供售后服务
- 今头条!车轮上的2022∣新能源与汽车出口带动:全国乘用车零售量同比增长1.9%
- 谷歌文档新功能:看到非打印字符
- 世界新消息丨一加新机质感高级,更有多项黑科技加持,3999的价格入手值吗?
- 焦点信息:中国手机品牌在2022年拿下俄罗斯市场份额65% 但高价机一个没有
- 2022年这5款熟悉的产品向我们告别
- 即时:陈副区长事件,引出一个老生常谈的问题,腾讯是否会保留聊天记录
- 我国首个具备独立运行能力的新能源储能项目在内蒙古并网通电
- 上海奉贤区初中转学条件2023
- 新冠病毒变异逻辑的猜测
- 世界讯息:充1次用10天!史上续航最强的国产手机,太猛了
- 全球视点!10个暗藏惊喜的微信小程序,个个好用不要钱,还请低调使用
- 世界热头条丨刘强东告别他的时代?回笼640亿携孕妻现身英国,祖宅半夜被泼漆
- 更便捷!威海市立医院互联网医院上线“新冠感染门诊”