谷歌推出专注于人工智能的“A3”超级计算机，拥有26000个GPU

云提供商正在组建GPU大军，以提供更多的人工智能“火力”。在刚刚举行的谷歌I/O开发者年度大会上，谷歌宣布了一款拥有26000 GPU的人工智能超级计算机。计算引擎A3超级计算机再次证明，在与微软争夺人工智能霸主地位的战斗中，谷歌正在投入更多资源进行积极的反攻。

这台超级计算机拥有大约26000个英伟达H100 Hopper GPU。作为参考，世界上速度最快的超级计算机Frontier拥有37000个AMD Instinct 250X GPU。

【资料图】

4月，英伟达首席执行官黄仁勋（Jensen Huang）展示了带有8个H100 Hopper GPU的英伟达DGX H100系统底板。

谷歌发言人在一封电子邮件中表示：“对于我们最大的客户，我们可以在一个集群中建造多达26000个GPU的A3超级计算机，并正在努力在我们最大的地区建造多个集群。”并补充道，“并不是我们所有节点都会扩大到这么大的规模。”

该系统是在加利福尼亚州山景城举行的谷歌I/O开发者大会上宣布的。开发者大会已经成为谷歌许多人工智能软件和硬件能力的展示。在微软将OpenAI技术应用于必应搜索和办公软件应用程序后，谷歌加快了人工智能的发展。

这台超级计算机的目标客户是希望训练大型语言模型（LLM）的客户。许多云提供商现在正在部署H100 GPU，英伟达在3月份推出了自己的DGX云服务，与租用上一代A100 GPU相比，这项服务非常昂贵。

谷歌表示，A3超级计算机是对使用英伟达A100 GPU的现有A2虚拟机提供的计算资源的重大升级。谷歌正在将所有分布在各地的A3计算实例集中到一台超级计算机中。

谷歌董事Roy Kim和产品经理Chris Kleban在一篇博客文章中表示：“A3超级计算机的规模提供了高达26 exaflops的人工智能性能，这大大提高了训练大型机器学习模型的时间和成本。”exaflops性能指标被用来估计人工智能计算机的基准性能。

GPU的数量已成为云提供商推广其人工智能计算服务的重要名片和指标。微软在Azure中的人工智能超级计算机与OpenAI合作构建，拥有28.5万个CPU核心和1万个GPU。微软还宣布了其下一代人工智能超级计算机，该计算机拥有更多的GPU。Oracle的云服务提供了对512个GPU集群的访问，并正在开发新技术来提高GPU间的通信速度。

谷歌一直在炒作其TPU v4人工智能芯片，这些芯片正被用来运行LLM的内部人工智能应用程序，例如谷歌的Bard产品。谷歌的人工智能子公司DeepMind表示，快速TPU（张量处理器）正在指导通用和科学应用的人工智能开发。

相比之下，谷歌的A3超级计算机用途广泛，可以适应各种人工智能应用和LLM。Kim和Kleban在博客文章中表示：“鉴于这些工作负载的高需求，一刀切的方法是不够的——你需要专门为人工智能构建的基础设施。”

尽管谷歌非常喜欢其TPU，但鉴于客户正在用CUDA编写人工智能应用程序，英伟达的GPU已成为云提供商的必需品。CUDA是英伟达专有的并行编程模型，该软件工具包基于H100专业的人工智能和图形核心提供的加速度生成最快的结果。

客户可以通过A3虚拟机运行人工智能应用程序，并通过Vertex AI、谷歌Kubernetes引擎和谷歌计算引擎服务使用谷歌的人工智能开发和管理服务。

谷歌的A3超级计算机融合了各种技术，以提高GPU到GPU的通信和网络性能。A3虚拟机基于英特尔第四代至强（Xeon）芯片（代号Sapphire Rapids），该芯片与H100 GPU一起封装。目前尚不清楚虚拟机中的虚拟CPU是否会支持Sapphire Rapids芯片中内置的推理加速器。虚拟机配有DDR5内存。

在英伟达H100上的训练模型比其上一代A100 GPU更快、更便宜，后者已在云中广泛可用。人工智能服务公司MosaicML的一项研究发现，H100在其70亿参数的MosaicGPT大型语言模型上“比NVIDIA A100高30%的成本效益和3倍的速度”。

H100也可以推理，但考虑到H100提供的处理能力，可能会被认为是过度使用。谷歌云提供英伟达的L4 GPU用于推理，英特尔在其Sapphire Rapids CPU中也有推理加速器。

谷歌的Kim和Kleban表示：“A3虚拟机也非常适合推理工作负载，与A2虚拟机的A100 GPU相比，推理性能提高了30倍。”

A3虚拟机是第一个通过名为Mount Evans的基础设施处理单元（IPU）连接GPU实例的虚拟机。IPU由谷歌和英特尔联合开发，其允许A3虚拟机减轻传统上在虚拟CPU上完成的网络、存储管理和安全功能的工作负荷。IPU允许以200Gbps的速度进行数据传输。

谷歌高管在一篇博客文章中表示：“A3是第一个使用我们定制设计的200Gbps IPU的GPU实例，GPU到GPU的数据传输绕过CPU主机，通过与其他虚拟机网络和数据流量分离的接口传输。与A2虚拟机相比，这使网络带宽增加了10倍，具有低延迟和高带宽稳定性。”

IPU的吞吐量可能很快就会受到微软的挑战，微软即将推出的搭载英伟达H100 GPU的人工智能超级计算机将具有芯片制造商Quantum-2 400Gbps的网络能力。微软尚未透露其下一代人工智能超级计算机中H100 GPU的数量。

A3超级计算机建立在该公司Jupiter数据中心网络结构的主干上，该网络结构通过光纤连接地理位置不同的GPU集群。

关键词：

谷歌推出专注于人工智能的“A3”超级计算机，拥有26000个GPU

推荐阅读

首都新机场叫什么名字机场是24小时开放的吗?

什么牌子的插排好优质的插排应该具备哪些特质呢?

李嘉诚的车是什么李嘉诚长江塑料厂怎么样？

飞龙股份002536今日主力资金流向飞龙股份002536主力控盘分析

中国获得诺贝尔奖的人汇总诺贝尔奖介绍

相关新闻

新闻

热点

资讯

谷歌推出专注于人工智能的“A3”超级计算机，拥有26000个GPU

推荐阅读

首都新机场叫什么名字 机场是24小时开放的吗?

什么牌子的插排好 优质的插排应该具备哪些特质呢?

李嘉诚的车是什么 李嘉诚长江塑料厂怎么样？

飞龙股份002536今日主力资金流向 飞龙股份002536主力控盘分析

中国获得诺贝尔奖的人汇总 ​诺贝尔奖介绍

相关新闻

新闻

热点

资讯

首都新机场叫什么名字机场是24小时开放的吗?

什么牌子的插排好优质的插排应该具备哪些特质呢?

李嘉诚的车是什么李嘉诚长江塑料厂怎么样？

飞龙股份002536今日主力资金流向飞龙股份002536主力控盘分析

中国获得诺贝尔奖的人汇总诺贝尔奖介绍