当前位置:滚动 > 正文

Meta建立了第一个以口语为主的闽南语AI翻译系统

2022-11-01 09:29:22  来源:DeepTech深科技

当前的 AI 翻译主要应用于书面语言。但世界现存的几千种语言,近一半是口头语言。口头语言几乎没有规范的书写系统,难以用通常方法来开发、训练翻译模型。

为了应对这一挑战, 建立了第一个以口语为主的闽南语 AI 翻译系统,其可一定程度上让说闽南语与说英语的人,进行良好对话。

对外表示:“口头交流可以帮助打破人与人之间的隔阂,也有助于人们在元宇宙(Metaverse)中交流。”该公司当前正在全力发展元宇宙业务,甚至在 2021 年 11 月将公司名字由 改为 。如果元宇宙要取得成功,需要实现更加身临其境和自然的体验。

据了解,开发闽南语翻译系统的一个重要前提是,需要有足够的数据。如今的机器翻译模型大都需要海量的书面文本来做训练。而闽南语的文本资源较少,在收集和注释数据方面存在不足。

因此,研究者决定利用高资源语言的数据来解决这一问题。他们选择使用普通话作为中介,即将闽南语转为普通话后,再译成相应的另一语言。该方法极大提高了模型的性能。

另外, 还采用了一种语音挖掘的训练数据生成方法,借助预训练的语音编码器,将闽南语和其他语言嵌入到同一语义空间中。这样,即使闽南语没有文字形式,其也能和英语或语义相似的文本对应。

值得一提的是, 还为非书面语言翻译开发了一种新的建模方法。

据了解,目前的语音翻译模型开发,大都需要借助转录或语音生成文本系统。但由于口头语言缺少规范的文字,因此, 将重点放在了语音到语音的翻译上。

研究人员使用“语音到单元的转换”(Speech-to-Unit Translation,S2UT)方法,把输入的语音变成许多声学单元。然后,再让声学单元产生波形。此外,他们还采用双通道解码机制,分别用来生成单元和以相关语言(普通话)生成文本。

接着, 对闽南语翻译系统的准确性做了评估。一般来说,语音翻译系统的评估采用的是 ASR-BLEU 指标。该指标指的是,用自动语音识(ASR Automatic Speech Recognition)将翻译的语音转换成文本,再对比转换文本与人工翻译文本,从而计算 BLEU 分数。BLEU 全称为 Bilingual evaluation understudy(双语评价替补),是一种标准的机器翻译指标。

关键词: Meta开创非书面语言翻译新方法 非书面语言翻译新方法 书面语言翻译 语言翻译

推荐阅读

运动型轿车是什么 运动型轿车与普通车有何区别?

运动型轿车凭借着外观酷炫,动力性能强的特点,深受国内众多消费者的喜爱。特别是在年轻消费者心目中,运动型轿车基本上是购车的首选。但是 【详细】

汽油清洗剂是什么 汽油清洗剂加在汽油里是干嘛的?

最近有很多车主反映加油的时候总是建议用汽油清洁剂。但是,大部分人还是不太了解,还有就是一部分人纳闷汽油清洗剂加在汽油里是干嘛的?汽 【详细】

中国最便宜的汽车是哪个 最便宜的汽车汇总

现在汽车已经成为了大家最常见的交通代步工具了。但是,依然还是有很多的家庭非常的需要代步工具,却买不起特别贵的汽车。所以今天,我们就 【详细】

伊莱克斯冰箱质量怎么样 伊莱克斯冰箱质量好不好?

伊莱克斯冰箱质量怎么样:在2018年全球500强企业中,伊莱克斯排名第162位,在2020年全球2000强企业中,伊莱克斯排名第1965位,可见伊莱克斯 【详细】

劳动保护用品是什么 劳动保护用品有哪些?

劳动保护用品有哪些?劳动防护用品分为特殊劳动防护用品和一般劳动防护用品,一般劳动防护用品是指未列入目录的一般劳动防护用品。以下产品 【详细】

相关新闻

关于我们  |  联系方式  |  免责条款  |  招聘信息  |  广告服务  |  帮助中心

联系我们:85 572 98@qq.com备案号:粤ICP备18023326号-40

科技资讯网 版权所有