当前位置:科学 > 正文

应用人工智能与自然语言处理的研究报告

2023-08-12 07:06:31  来源:苍笙客栈

前言

随着科学技术的发展,人工智能与我们的生活息息相关,几乎渗透到我们社会的方方面面。人工智能是在1950年代正式提出的。1950年,一位名叫马文·明斯基(后来被称为“人工智能之父”)的人建造了世界上第一台神经网络计算机。


(资料图片仅供参考)

这也被视为人工智能的起点。1956年,达特茅斯学院组织的达特茅斯会议,计算机专家约翰·麦卡锡提出了“人工智能”一词。后来,这被视为人工智能正式诞生的标志。此后,人工智能走上了快速发展的道路。

1997年5月11日,IBM的计算机系统“深蓝”击败了世界象棋冠军卡斯帕罗夫。2016年3月9日,阿尔法围棋击败围棋冠军。AI-DeepMind已经进入了医疗保健和其他领域。

源文本的语言特征

利用信息文本进行“事实”交流,可以逻辑地传达事实的内容和主题。表现性文本是作者主导的文本,作者可以在其中以各种形式创造虚构的人物和故事。

操作文本用于指导读者完成特定任务。《应用人工智能与自然语言处理研讨会》一书是一本内容丰富的文本,主要讲的是计算机科学和人工智能,大部分是陈述客观事实的,很少包含带有主观感受的单词和句子。

在词汇层面,源文本有三个特征。首先,书中大量使用了“对话式AI”、“全渠道”等与人工智能相关的技术术语。虽然这些术语你可能认为它们很容易理解,但很难在上下文中将它们翻译成中文并准确地表达它们以符合中国人的认知。

其次,源文本中有很多缩写,例如“NLP”,“NLU”,“IAM”等。大多数缩写可能有全名,有些可能没有,所以正确翻译它们也是作者的另一个挑战。第三,源文本中有许多名词化。命名化后,句子结构变得更简单、更简洁、更严谨。

在句法层面,源文本还有三个特征。首先,源文本中有大量的语音句子。被动语态的广泛使用与科技文本的特点密切相关。科技课文的主题大多是客观的事物、现象或过程,没有任何主观色彩。

其次,现代时和情态动词在源文本中被广泛使用。随着科学技术的发展,越来越多的人对计算机和机器人领域感兴趣。大量中国读者也在思考,人工智能是否会取代社会中的低端劳动力。

因此,无论是专业的计算机工作者,还是对这个领域感兴趣的普通人,这本书都可以向他们传达有用的信息。

这项翻译任务的主要目的是向中国读者介绍人工智能驱动的自然语言处理应用。由于语言风格简单,该目标文本的目标读者是大量科技领域的初学者,对人工智能和科学文本的翻译理论和策略感兴趣的相关业余从业者。

此外,中国有大量年轻人对人工智能领域特别感兴趣,但国内相关课程或书籍并不多,目标文本刚好足以满足他们对特定AI问题的渴望。书中的很多专业知识,可以解决他们脑海中的许多问题,而不会让人理解得太难。

两栖词的翻译

有必要仔细分析原文,以便很好地理解原作者的意图。本实践报告的作者只有正确把握文本的特点,才能采取相应的翻译策略,准确翻译文本。因此,目标文本不仅要准确传达科技源文本的含义和信息,还要考虑目标语言的读者,以确保读者能够理解具体的科学知识并传播信息。

在翻译过程中,存在大量的问题和困难。除了缩写和术语之外,源文本在词汇层面的另一个特征是两栖词。两栖词是指不仅在日常英语中使用,而且在计算机领域使用的具有特定含义的单词。

两栖词在通信技术英语中出现的频率更高,并且在翻译中很容易被认为是理所当然的。在翻译中,日常英语中的单词在计算机文本的上下文中可能与原始含义具有完全不同的含义。

因此,如果将它们翻译成原意,可能会造成与计算机表达含义的明显偏差,并使翻译更加僵化,使读者更难理解。

在这种情况下,“桶”一词在用作名词时具有大量含义,通常,“桶”被翻译为“水桶”或“挖斗”。但在源文本中,技术术语“buckets”被定义为“S3系统中的文件夹”,因此作者翻译为“存储桶”,既可以表达特定的技术概念,也可以表达科学文本中的常见含义。

翻译是以最合适,自然和等效的语言将源语言中的信息从语义复制到文体“。这种翻译是一个寻找“最接近原始语言信息的自然等价物”的过程,是一个动态而灵活的转换过程。

“slot”在日常英语中是指机器或容器中的狭窄开口,可以翻译成“沟槽”。在源文本的上下文中,槽是与意图关联的一条信息或参数。因此,根据Nida的函数等价理论,基于技术术语,作者将“slot”翻译成“插槽”,Chinese.It使单词的含义更加清晰。

并实现了传达源文本方式的单词等价。通信技术手册以指导性文字为主,内容和形式都要简明扼要。不仅如此,程序的客观存在和相关知识,如如何创建和应用,都应该准确有效地描述。

在通信技术文本的翻译中需要使用名词,命名结构,技术词,省略结构和缩写。整个程序文本主要由句子组成,单词和词汇是基本部分。为了使整篇文章表达原意,展现文化多样性,本实践报告的作者应考虑不同的词语,并应遵循功能等同的原则。通信技术文本一般采用半专业或专业词汇,基本按惯例建立,一般情况下都能达到等效性。

翻译不仅包括ST信息的传达,还包括ST语言模式的呈现。英汉在句法上存在显著差异,具体表现在主动语态与被动语态、静态性与动态性、低调和副语态的差异。在翻译中,译者应该考虑的核心问题是如何再现原文本的性质。

从实践的角度来看,第一步是翻译好句子。与一篇文章相比,一句话是一个很小的单元,但它涉及很多写作和翻译的事情。该翻译材料是科学文本,其显著特点之一是使用被动语态。

而在中文中,主动语态比被动语态出现的频率更高。因此,需要句法等价来解决科学文本中的此类问题,通过改变SL的词性或添加一些主动语态词,将被动语态转变为主动语态。

在翻译信息文本时,要尽量做客观陈述,所以要把被动句转换成主动句进行翻译。功能等价理论侧重于读者的反应,要求实现源文本与目标文本之间的功能等价。

我们将从云计算、人工智能(AI)和机器学习(ML)的基本概念开始。这些是我们将在本书中处理的基本要素。本章中的指导说明将为您提供使用AmazonSimpleStorageService(S3)存储和检索数据所需的技能,同时学习此技术的核心概念。

接下来,您将通过管理控制台和命令行界面(CLI)导入和导出文本数据来应用您的S3知识。在本章结束时,您将能够自信地使用管理控制台和CLI,以便您可以测试AI和ML服务。

我们正处于一个拥有前所未有的计算能力的时代——具有自主功能的无服务器计算,可以在几秒钟内从零弹性扩展到一百万用户,然后再扩展到零,创新的智能机器人框架可以存在于云中的联络中心,我们可以通过少量配置启动,以及从图像中提取文本的能力,表格,以及扫描文件,如医疗记录以及商业和税务文件。

当然,我们谈论的是触手可及的云服务,特别是从2004Amazon.In开始,亚马逊首先提供云计算即服务,现在(根据福布斯)云市场价值超过300亿美元,以每年30-50%的速度增长。越来越多的人喜欢在云中进行计算。

AWS界面,并教您如何使用AmazonSimpleStorageService(S3)存储和检索数据。然后,您将通过管理控制台和CLI导入和导出文本数据来应用您的S3知识,最后,您将学习如何定位和测试AI和ML服务。

您将有机会应用自然语言处理(NLP)技术来分析文档,编程无服务器计算,使用AI/ML服务进行主题和主题提取,使用自己的电话号码构建自己的完全有能力的联络中心,开发在您自己的联络中心应答呼叫的机器人。

最后,使用ML编程图像分析以从图像(例如路牌)中提取文本并执行面部识别。总的来说,这将是一段有趣的旅程,最终我们将为AI和ML控制大量资源的基础设施。

人工智能是由机器展示的智能。更具体地说,它是指感知其环境并采取行动以增加成功实现其目标的机会的任何设备。当代的例子是理解人类语言,在最高级别的战略游戏(如国际象棋和围棋)和自动驾驶汽车中竞争。

人工智能之所以重要,是因为它为现有产品增加了智能。目前使用的产品将通过AI功能进一步改进;例如,Siri被添加到新一代Apple产品中。对话聊天机器人可以与大量数据相结合,以改进家庭和办公室的技术。

在本文中,我们将向您介绍前几项AWS服务,这些服务将使您开始在AWS上进行ML。只要有可能,我们就会坚持使用AWS的免费套餐。

可以获得1年的免费套餐,并且可以使用的计算资源数量有限。愿意投资几美元使用常规AWS账户学习的读者会发现这笔钱花得值。

另一种选择是使用打包的实验室,例如Qwiklabs,它可以让随意进行实验室,并增加关闭实验室的便利性,这样当您让机器运行时不会产生意外费用。它的工作原理是将存储设备邮寄到AWS,AWS将使用亚马逊的高速网络传输该数据。您的大数据将在到达后的下一个工作日加载到AWS中。加载数据后,存储设备将返回给所有者。

这是一种更具成本效益的传输大量数据的方式,比通过互联网传输要快得多。如果您需要放入S3的数据量相对较小,您只需从计算机上传即可。如今,随着宽带网络容量的不断增加,“小”变得越来越大。我们的准则是1TB。一旦您拥有更多数据,您可能需要考虑更快的方法来将数据放入S3中

总结

其中之一是AWS导入/导出磁盘服务,您可以在其中将数据打包到AWS提供的设备上并将其发送给他们。然后可以在一天或几天内加载大量数据。桶:就像文件夹一样,桶是存放对象的容器。存储桶是在根级别创建的,没有文件系统层次结构。

更具体地说,您可以有多个存储桶,但一个存储桶中不能有子存储桶。存储桶是对象的容器,您可以控制(创建、删除和列出存储桶中的对象)访问、查看访问日志以及选择AmazonS3将存储存储桶的地理区域。

关键词:

推荐阅读

月壤形成的主要原因 月壤与土壤有什么区别

月壤形成的主要原因月壤形成过程没有生物活动参与,没有有机质,还极度缺水干燥;组成月壤的矿物粉末基本是由陨石撞击破砰形成,因此,粉末 【详细】

域名抢注是是什么意思?投资角度来看什么域名好?

域名抢注是是什么意思域名抢注是通过抢先注册的方式获得互联网删除的域名的使用权。域名是由点分隔的一串数字,用于标记一台计算机或一组计 【详细】

捷达保养费用是多少?捷达是哪个国家的品牌?

捷达保养费用是多少?全新捷达的保修期为2年或6万公里,以先到者为准,新车可享受一次免费保养,首次免费保养在5000-7500km或1年内进行。如 【详细】

天然气泄露会造成爆炸吗?天然气泄漏怎么办?

天然气泄露会造成爆炸吗?家里用的天然气如果泄露是会发生爆炸的。当空气中含有混合天然气时,在与火源接触的一系列爆炸危险中,就会发生爆 【详细】

四部门明确App收集个人信息范围 个人信息保护范围判断标准

四部门明确App收集个人信息范围近日,国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合印发《常见类型移动互联网 【详细】

关于我们  |  联系方式  |  免责条款  |  招聘信息  |  广告服务  |  帮助中心

联系我们:85 572 98@qq.com备案号:粤ICP备18023326号-40

科技资讯网 版权所有