AI同传新突破:搜狗同传3.0首创「语境引擎」
最近,搜狗 AI 交互技术部总经理陈伟、搜狗同传产品总监张晶晶和项目负责人赵超向我们揭秘了搜狗同传背后的技术。
首创「语境引擎」,搜狗 AI 同传新突破
搜狗同传技术自 2016 年发布以来,已经经历了数千场会议同传的实际应用。开发者们在实践中发现,业内主流的语音同传系统无法稳定、高质量地满足多种演讲场合的需求,经常会出现演讲内容中专业词汇的识别和翻译效果不佳的情况。
为了解决上述问题,搜狗在同传 3.0 版中加入「语境引擎」,希望能够通过对语言的深入理解来解决问题。「语境引擎能够实时利用摄像头识别现场屏幕上的 PPT 内容,」陈伟介绍道,「之前机器同传只能获取语音信息,通过 OCR 技术,现在搜狗同传可获取语音信息+ PPT 信息,随后语境引擎可以构建个性化知识,从而使得同传译文效果有大幅提升。」
下图展示了一些 3.0 版同传的应用效果,第二列是嘉宾演讲的原始内容,第三列是旧版语音识别出来的内容。按照以往的情况,演讲者说出的一些罕见词,比如「投子」,通常会被 AI 识别为投资,但是 PPT 内容上有 AlphaGo 与李世石人机大战,会让同传 3.0 系统拓展出「投子」(指某一方认输)这样的围棋术语,在知识图谱的帮助下,AI 可以对译文进行大量更正。
除了专有名词,新技术的性能具体提升了多少?搜狗表示,他们特别选择了一个难度较高的专业性会议演讲,对同传 2.0 版、3.0 版和人类专业同传进行了对比测试。人类达到了 4.08 分、搜狗同传 2.0 可以达到 3.41 分,而 3.0 版则获得了 3.82 分。这一成绩实现了同传领域的新突破,让 AI 距离专业的人类同传水平又近了一步。
能看又能听的多模态技术并非搜狗同传 3.0 的唯一亮点。搜狗表示,同传 3.0 主要带来了三个方向上的提升:
更加接近自然,从单纯的语音识别到语音+图像,新的方法模拟了人工同传的工作方式,增加视觉和大脑扩散知识点的功能,拥有更为复杂的感知系统。
更加专业,此前的 AI 同传模型使用通用数据,新的模型通过实时定制知识增强能力,能够捕捉现场 PPT 内容补充演讲相关的专业领域的知识,并针对每一个演讲进行模型定制,提升同传效果。
更加智能,以往模型训练需要一个被动学习的过程,现在自动学习 PPT 的内容,自动捕捉海量词汇,确保同传品质非常优秀。
陈伟进一步总结道:「搜狗同传 3.0 版进行了从前到后的大规模更新,首先是引入多模态,加入了视觉处理能力。其次在处理过程中从感知层面升级到了认知层面,在『语境引擎』的帮助下,系统可以通过知识图谱的帮助对同传内容进行进一步扩展。形成和演讲内容相关的语境信息。在新版同传工具中,系统还可以实时对同传和翻译效果进行增强,时延更低。」
与演讲者一起「边看边思考」
相比以往,多模态的 AI 同传更加接近于人类,「会看」意味着同传首次具备了视觉能力。据介绍,搜狗同传 3.0 在使用中可以借助屏幕截取,或者普通摄像头实时获取图像信息,不需要使用特定的设备。
「能理解会推理」,则归功于搜狗语境引擎的应用。在这其中则包含了搜狗知识图谱和百科的推理能力,系统可以将 OCR 技术获取的文字内容与演讲相关的核心知识产生关联,并通过「搜狗知立方」知识图谱实时推理拓展,获取背景知识。另外,同传系统可以基于搜狗百科的中英术语库获得中英双语对照,实时优化同传识别和翻译的效果。
搜狗表示,通过多模态方式获取信息,同时引入知识图谱的情况下,搜狗同传 3.0 针对 PPT 内容的识别准确率提升了 21.7%,翻译正确率提升了 40.3%。
除了大会演讲以外,搜狗同传的技术体系还会在更多场景中落地,远程会议、记者采访、视频直播、旅游出行,甚至法院庭审记录都是未来努力的方向。
搜狗同传技术自 2016 年发布 1.0 版以来,经历了不断升级的过程。「在同传系统翻译模块的背后,1.0 版使用 RNN 模型,在 2.0 版本中,我们引入了 Transformer 模型,解决了梯度爆炸问题,并可以记住更长的历史内容。在 3.0 版的系统中,除了 Transformer,还采用了基于上下文的流式解码,并引入了基于搜狗百科的知识图谱。」赵超介绍道。
但同时我们也应看到行业的共性问题,AI 同传的准确性距离人类专家水平还有一定距离,这其中既有算法能力的挑战,也有人们对于 AI「更高要求」的原因。「我们和很多同传从业者交流后发现,按照常规流程,人工同传需要合作方提前提供背景材料,并有一到两天的准备时间,」陈伟解释道,「但机器同传是没有准备时间的,并且在开始同传时,人类也可以看到现场 PPT 上的内容。因此对于机器同传而言,除了把语音做好外,视觉信息也非常重要。」
搜狗同传 3.0 背后,更是公司「自然交互+知识计算」战略的深入。搜狗 CEO 王小川最近表示,搜狗 AI 技术的核心,是经由深度学习为机器加入感知能力,从而实现与人类的自然交互,同时进一步提取出语言内的关联关系,让机器产生人类的「认知」能力。
从最初的语音交互到唇语识别,到机器翻译、搜狗分身(合成主播),再到如今的多模态交互,搜狗正在依托语音、图像、手势等各种方式让 AI 与人类展开更为「自然」的交流。
推荐阅读
运动型轿车是什么 运动型轿车与普通车有何区别?
运动型轿车凭借着外观酷炫,动力性能强的特点,深受国内众多消费者的喜爱。特别是在年轻消费者心目中,运动型轿车基本上是购车的首选。但是 【详细】
汽油清洗剂是什么 汽油清洗剂加在汽油里是干嘛的?
最近有很多车主反映加油的时候总是建议用汽油清洁剂。但是,大部分人还是不太了解,还有就是一部分人纳闷汽油清洗剂加在汽油里是干嘛的?汽 【详细】
中国最便宜的汽车是哪个 最便宜的汽车汇总
现在汽车已经成为了大家最常见的交通代步工具了。但是,依然还是有很多的家庭非常的需要代步工具,却买不起特别贵的汽车。所以今天,我们就 【详细】
伊莱克斯冰箱质量怎么样 伊莱克斯冰箱质量好不好?
伊莱克斯冰箱质量怎么样:在2018年全球500强企业中,伊莱克斯排名第162位,在2020年全球2000强企业中,伊莱克斯排名第1965位,可见伊莱克斯 【详细】
劳动保护用品是什么 劳动保护用品有哪些?
劳动保护用品有哪些?劳动防护用品分为特殊劳动防护用品和一般劳动防护用品,一般劳动防护用品是指未列入目录的一般劳动防护用品。以下产品 【详细】
相关新闻
- 国产手机排名前十 国产手机排名前汇总
- 环球观点:至今还没有阳的人,他们天赋异禀,还是另有隐情?研究结果来了
- 新动态:iPhone 15 太炸了,标准版有大提升
- 全球即时看!vivo拒绝高价低配:骁龙870+144Hz屏,12GB+256GB跌至1769元
- 实现高并发秒杀的七种方式
- 全球看热讯:3D渲染引擎 HOOPS Visualize 2023全新发布-增加对顶点着色器支持
- 世界看热讯:「升级」Hubstudio多账号安全管理浏览器之扩展中心上线啦!
- 汽车早报 - 消息称蔚来布局百万元级别电动车 广汽称将继续为讴歌中国客户提供售后服务
- 今头条!车轮上的2022∣新能源与汽车出口带动:全国乘用车零售量同比增长1.9%
- 谷歌文档新功能:看到非打印字符
- 世界新消息丨一加新机质感高级,更有多项黑科技加持,3999的价格入手值吗?
- 焦点信息:中国手机品牌在2022年拿下俄罗斯市场份额65% 但高价机一个没有
- 2022年这5款熟悉的产品向我们告别
- 即时:陈副区长事件,引出一个老生常谈的问题,腾讯是否会保留聊天记录
- 我国首个具备独立运行能力的新能源储能项目在内蒙古并网通电
- 上海奉贤区初中转学条件2023
- 新冠病毒变异逻辑的猜测
- 世界讯息:充1次用10天!史上续航最强的国产手机,太猛了
- 全球视点!10个暗藏惊喜的微信小程序,个个好用不要钱,还请低调使用
- 世界热头条丨刘强东告别他的时代?回笼640亿携孕妻现身英国,祖宅半夜被泼漆