当前位置:滚动 > 正文

Meta建立了第一个以口语为主的闽南语AI翻译系统

2022-11-01 09:29:22  来源:DeepTech深科技

当前的 AI 翻译主要应用于书面语言。但世界现存的几千种语言,近一半是口头语言。口头语言几乎没有规范的书写系统,难以用通常方法来开发、训练翻译模型。

为了应对这一挑战, 建立了第一个以口语为主的闽南语 AI 翻译系统,其可一定程度上让说闽南语与说英语的人,进行良好对话。

对外表示:“口头交流可以帮助打破人与人之间的隔阂,也有助于人们在元宇宙(Metaverse)中交流。”该公司当前正在全力发展元宇宙业务,甚至在 2021 年 11 月将公司名字由 改为 。如果元宇宙要取得成功,需要实现更加身临其境和自然的体验。

据了解,开发闽南语翻译系统的一个重要前提是,需要有足够的数据。如今的机器翻译模型大都需要海量的书面文本来做训练。而闽南语的文本资源较少,在收集和注释数据方面存在不足。

因此,研究者决定利用高资源语言的数据来解决这一问题。他们选择使用普通话作为中介,即将闽南语转为普通话后,再译成相应的另一语言。该方法极大提高了模型的性能。

另外, 还采用了一种语音挖掘的训练数据生成方法,借助预训练的语音编码器,将闽南语和其他语言嵌入到同一语义空间中。这样,即使闽南语没有文字形式,其也能和英语或语义相似的文本对应。

值得一提的是, 还为非书面语言翻译开发了一种新的建模方法。

据了解,目前的语音翻译模型开发,大都需要借助转录或语音生成文本系统。但由于口头语言缺少规范的文字,因此, 将重点放在了语音到语音的翻译上。

研究人员使用“语音到单元的转换”(Speech-to-Unit Translation,S2UT)方法,把输入的语音变成许多声学单元。然后,再让声学单元产生波形。此外,他们还采用双通道解码机制,分别用来生成单元和以相关语言(普通话)生成文本。

接着, 对闽南语翻译系统的准确性做了评估。一般来说,语音翻译系统的评估采用的是 ASR-BLEU 指标。该指标指的是,用自动语音识(ASR Automatic Speech Recognition)将翻译的语音转换成文本,再对比转换文本与人工翻译文本,从而计算 BLEU 分数。BLEU 全称为 Bilingual evaluation understudy(双语评价替补),是一种标准的机器翻译指标。

关键词: Meta开创非书面语言翻译新方法 非书面语言翻译新方法 书面语言翻译 语言翻译

推荐阅读

Meta建立了第一个以口语为主的闽南语AI翻译系统

当前的 AI 翻译主要应用于书面语言。但世界现存的几千种语言,近一半是口头语言。口头语言几乎没有规范的书写系统,难以用通常方法来开发 【详细】

英国公司开发图像识别系统 可优化建筑工地的施工进度

建筑工地就像是工人和建筑构件的巨幅拼图,必须在正确的时机将他们凑在一起。随着项目规模的扩大,工程错误和延误的代价也会变得越来越高昂 【详细】

再生组织疗法进入3期临床试验阶段 利用自体皮肤治疗糖尿病足

今年早些时候,美国的组织再生和生物材料技术公司 (NASDAQ:PTE)宣布其 SkinTE 产品获得了美国 FDA 的再生医学高级疗法(RMAT)称号。据 【详细】

不公平的人工智能系统会导致无辜的人被逮捕

人工智能系统已经广泛存在于我们的日常生活中,但我们可能需要几个月、甚至数年的时间才能弄清楚它们是否存在偏见,以及是什么样的偏见。这 【详细】

CB Insights 发布了第五届全球金融科技 250 强榜单

从保险科技、数字银行、加密货币到财富管理, Fintech 250 榜单(全球金融科技企业 250 强)致力于在全球范围内寻找 250 家最具发展前 【详细】

关于我们  |  联系方式  |  免责条款  |  招聘信息  |  广告服务  |  帮助中心

联系我们:85 572 98@qq.com备案号:粤ICP备18023326号-40

科技新闻网 版权所有