当前位置:科学 > 正文

谷歌推出专注于人工智能的“A3”超级计算机,拥有26000个GPU

2023-05-21 17:44:08  来源:AI时代前沿

云提供商正在组建GPU大军,以提供更多的人工智能“火力”。在刚刚举行的谷歌I/O开发者年度大会上,谷歌宣布了一款拥有26000 GPU的人工智能超级计算机。计算引擎A3超级计算机再次证明,在与微软争夺人工智能霸主地位的战斗中,谷歌正在投入更多资源进行积极的反攻。

这台超级计算机拥有大约26000个英伟达H100 Hopper GPU。作为参考,世界上速度最快的超级计算机Frontier拥有37000个AMD Instinct 250X GPU。


【资料图】

4月,英伟达首席执行官黄仁勋(Jensen Huang)展示了带有8个H100 Hopper GPU的英伟达DGX H100系统底板。

谷歌发言人在一封电子邮件中表示:“对于我们最大的客户,我们可以在一个集群中建造多达26000个GPU的A3超级计算机,并正在努力在我们最大的地区建造多个集群。”并补充道,“并不是我们所有节点都会扩大到这么大的规模。”

该系统是在加利福尼亚州山景城举行的谷歌I/O开发者大会上宣布的。开发者大会已经成为谷歌许多人工智能软件和硬件能力的展示。在微软将OpenAI技术应用于必应搜索和办公软件应用程序后,谷歌加快了人工智能的发展。

这台超级计算机的目标客户是希望训练大型语言模型(LLM)的客户。许多云提供商现在正在部署H100 GPU,英伟达在3月份推出了自己的DGX云服务,与租用上一代A100 GPU相比,这项服务非常昂贵。

谷歌表示,A3超级计算机是对使用英伟达A100 GPU的现有A2虚拟机提供的计算资源的重大升级。谷歌正在将所有分布在各地的A3计算实例集中到一台超级计算机中。

谷歌董事Roy Kim和产品经理Chris Kleban在一篇博客文章中表示:“A3超级计算机的规模提供了高达26 exaflops的人工智能性能,这大大提高了训练大型机器学习模型的时间和成本。”exaflops性能指标被用来估计人工智能计算机的基准性能。

GPU的数量已成为云提供商推广其人工智能计算服务的重要名片和指标。微软在Azure中的人工智能超级计算机与OpenAI合作构建,拥有28.5万个CPU核心和1万个GPU。微软还宣布了其下一代人工智能超级计算机,该计算机拥有更多的GPU。Oracle的云服务提供了对512个GPU集群的访问,并正在开发新技术来提高GPU间的通信速度。

谷歌一直在炒作其TPU v4人工智能芯片,这些芯片正被用来运行LLM的内部人工智能应用程序,例如谷歌的Bard产品。谷歌的人工智能子公司DeepMind表示,快速TPU(张量处理器)正在指导通用和科学应用的人工智能开发。

相比之下,谷歌的A3超级计算机用途广泛,可以适应各种人工智能应用和LLM。Kim和Kleban在博客文章中表示:“鉴于这些工作负载的高需求,一刀切的方法是不够的——你需要专门为人工智能构建的基础设施。”

尽管谷歌非常喜欢其TPU,但鉴于客户正在用CUDA编写人工智能应用程序,英伟达的GPU已成为云提供商的必需品。CUDA是英伟达专有的并行编程模型,该软件工具包基于H100专业的人工智能和图形核心提供的加速度生成最快的结果。

客户可以通过A3虚拟机运行人工智能应用程序,并通过Vertex AI、谷歌Kubernetes引擎和谷歌计算引擎服务使用谷歌的人工智能开发和管理服务。

谷歌的A3超级计算机融合了各种技术,以提高GPU到GPU的通信和网络性能。A3虚拟机基于英特尔第四代至强(Xeon)芯片(代号Sapphire Rapids),该芯片与H100 GPU一起封装。目前尚不清楚虚拟机中的虚拟CPU是否会支持Sapphire Rapids芯片中内置的推理加速器。虚拟机配有DDR5内存。

在英伟达H100上的训练模型比其上一代A100 GPU更快、更便宜,后者已在云中广泛可用。人工智能服务公司MosaicML的一项研究发现,H100在其70亿参数的MosaicGPT大型语言模型上“比NVIDIA A100高30%的成本效益和3倍的速度”。

H100也可以推理,但考虑到H100提供的处理能力,可能会被认为是过度使用。谷歌云提供英伟达的L4 GPU用于推理,英特尔在其Sapphire Rapids CPU中也有推理加速器。

谷歌的Kim和Kleban表示:“A3虚拟机也非常适合推理工作负载,与A2虚拟机的A100 GPU相比,推理性能提高了30倍。”

A3虚拟机是第一个通过名为Mount Evans的基础设施处理单元(IPU)连接GPU实例的虚拟机。IPU由谷歌和英特尔联合开发,其允许A3虚拟机减轻传统上在虚拟CPU上完成的网络、存储管理和安全功能的工作负荷。IPU允许以200Gbps的速度进行数据传输。

谷歌高管在一篇博客文章中表示:“A3是第一个使用我们定制设计的200Gbps IPU的GPU实例,GPU到GPU的数据传输绕过CPU主机,通过与其他虚拟机网络和数据流量分离的接口传输。与A2虚拟机相比,这使网络带宽增加了10倍,具有低延迟和高带宽稳定性。”

IPU的吞吐量可能很快就会受到微软的挑战,微软即将推出的搭载英伟达H100 GPU的人工智能超级计算机将具有芯片制造商Quantum-2 400Gbps的网络能力。微软尚未透露其下一代人工智能超级计算机中H100 GPU的数量。

A3超级计算机建立在该公司Jupiter数据中心网络结构的主干上,该网络结构通过光纤连接地理位置不同的GPU集群。

关键词:

推荐阅读

首都新机场叫什么名字 机场是24小时开放的吗?

首都新机场叫什么名字?一般指北京大兴国际机场。北京大兴国际机场定位为大型国际航空枢纽,国家发展新动力源,支撑雄安新区建设的京津冀区 【详细】

什么牌子的插排好 优质的插排应该具备哪些特质呢?

什么牌子的插排好品牌插座有公牛、西门子, TCL, 西蒙, 奇胜, 松下, 施耐德, ABB、朗能,等。为了满足大众对插座的各种需求,各 【详细】

李嘉诚的车是什么 李嘉诚长江塑料厂怎么样?

李嘉诚的车是什么说到李嘉诚,我们肯定会很熟悉。出生于潮汕的他是香港首富,也是中国顶级房地产大亨。根据《福布斯》、2020年发布的数据, 【详细】

飞龙股份002536今日主力资金流向 飞龙股份002536主力控盘分析

飞龙股份002536今日主力资金流向【飞龙股份(002536)】 今日主力资金流向,资金净流入105 11万元,今日超大单净流入296 82万元,大单净流入 【详细】

中国获得诺贝尔奖的人汇总 ​诺贝尔奖介绍

中国获得诺贝尔奖的人汇总截至目前为止,我国获得诺贝尔奖的人一共有十一个1、杨振宁,美籍华人,1957年获诺贝尔物理学奖。2、李政道,美籍 【详细】

相关新闻

关于我们  |  联系方式  |  免责条款  |  招聘信息  |  广告服务  |  帮助中心

联系我们:85 572 98@qq.com备案号:粤ICP备18023326号-40

科技资讯网 版权所有