谷歌推出专注于人工智能的“A3”超级计算机,拥有26000个GPU
云提供商正在组建GPU大军,以提供更多的人工智能“火力”。在刚刚举行的谷歌I/O开发者年度大会上,谷歌宣布了一款拥有26000 GPU的人工智能超级计算机。计算引擎A3超级计算机再次证明,在与微软争夺人工智能霸主地位的战斗中,谷歌正在投入更多资源进行积极的反攻。
这台超级计算机拥有大约26000个英伟达H100 Hopper GPU。作为参考,世界上速度最快的超级计算机Frontier拥有37000个AMD Instinct 250X GPU。
【资料图】
4月,英伟达首席执行官黄仁勋(Jensen Huang)展示了带有8个H100 Hopper GPU的英伟达DGX H100系统底板。
谷歌发言人在一封电子邮件中表示:“对于我们最大的客户,我们可以在一个集群中建造多达26000个GPU的A3超级计算机,并正在努力在我们最大的地区建造多个集群。”并补充道,“并不是我们所有节点都会扩大到这么大的规模。”
该系统是在加利福尼亚州山景城举行的谷歌I/O开发者大会上宣布的。开发者大会已经成为谷歌许多人工智能软件和硬件能力的展示。在微软将OpenAI技术应用于必应搜索和办公软件应用程序后,谷歌加快了人工智能的发展。
这台超级计算机的目标客户是希望训练大型语言模型(LLM)的客户。许多云提供商现在正在部署H100 GPU,英伟达在3月份推出了自己的DGX云服务,与租用上一代A100 GPU相比,这项服务非常昂贵。
谷歌表示,A3超级计算机是对使用英伟达A100 GPU的现有A2虚拟机提供的计算资源的重大升级。谷歌正在将所有分布在各地的A3计算实例集中到一台超级计算机中。
谷歌董事Roy Kim和产品经理Chris Kleban在一篇博客文章中表示:“A3超级计算机的规模提供了高达26 exaflops的人工智能性能,这大大提高了训练大型机器学习模型的时间和成本。”exaflops性能指标被用来估计人工智能计算机的基准性能。
GPU的数量已成为云提供商推广其人工智能计算服务的重要名片和指标。微软在Azure中的人工智能超级计算机与OpenAI合作构建,拥有28.5万个CPU核心和1万个GPU。微软还宣布了其下一代人工智能超级计算机,该计算机拥有更多的GPU。Oracle的云服务提供了对512个GPU集群的访问,并正在开发新技术来提高GPU间的通信速度。
谷歌一直在炒作其TPU v4人工智能芯片,这些芯片正被用来运行LLM的内部人工智能应用程序,例如谷歌的Bard产品。谷歌的人工智能子公司DeepMind表示,快速TPU(张量处理器)正在指导通用和科学应用的人工智能开发。
相比之下,谷歌的A3超级计算机用途广泛,可以适应各种人工智能应用和LLM。Kim和Kleban在博客文章中表示:“鉴于这些工作负载的高需求,一刀切的方法是不够的——你需要专门为人工智能构建的基础设施。”
尽管谷歌非常喜欢其TPU,但鉴于客户正在用CUDA编写人工智能应用程序,英伟达的GPU已成为云提供商的必需品。CUDA是英伟达专有的并行编程模型,该软件工具包基于H100专业的人工智能和图形核心提供的加速度生成最快的结果。
客户可以通过A3虚拟机运行人工智能应用程序,并通过Vertex AI、谷歌Kubernetes引擎和谷歌计算引擎服务使用谷歌的人工智能开发和管理服务。
谷歌的A3超级计算机融合了各种技术,以提高GPU到GPU的通信和网络性能。A3虚拟机基于英特尔第四代至强(Xeon)芯片(代号Sapphire Rapids),该芯片与H100 GPU一起封装。目前尚不清楚虚拟机中的虚拟CPU是否会支持Sapphire Rapids芯片中内置的推理加速器。虚拟机配有DDR5内存。
在英伟达H100上的训练模型比其上一代A100 GPU更快、更便宜,后者已在云中广泛可用。人工智能服务公司MosaicML的一项研究发现,H100在其70亿参数的MosaicGPT大型语言模型上“比NVIDIA A100高30%的成本效益和3倍的速度”。
H100也可以推理,但考虑到H100提供的处理能力,可能会被认为是过度使用。谷歌云提供英伟达的L4 GPU用于推理,英特尔在其Sapphire Rapids CPU中也有推理加速器。
谷歌的Kim和Kleban表示:“A3虚拟机也非常适合推理工作负载,与A2虚拟机的A100 GPU相比,推理性能提高了30倍。”
A3虚拟机是第一个通过名为Mount Evans的基础设施处理单元(IPU)连接GPU实例的虚拟机。IPU由谷歌和英特尔联合开发,其允许A3虚拟机减轻传统上在虚拟CPU上完成的网络、存储管理和安全功能的工作负荷。IPU允许以200Gbps的速度进行数据传输。
谷歌高管在一篇博客文章中表示:“A3是第一个使用我们定制设计的200Gbps IPU的GPU实例,GPU到GPU的数据传输绕过CPU主机,通过与其他虚拟机网络和数据流量分离的接口传输。与A2虚拟机相比,这使网络带宽增加了10倍,具有低延迟和高带宽稳定性。”
IPU的吞吐量可能很快就会受到微软的挑战,微软即将推出的搭载英伟达H100 GPU的人工智能超级计算机将具有芯片制造商Quantum-2 400Gbps的网络能力。微软尚未透露其下一代人工智能超级计算机中H100 GPU的数量。
A3超级计算机建立在该公司Jupiter数据中心网络结构的主干上,该网络结构通过光纤连接地理位置不同的GPU集群。
关键词:
推荐阅读
首都新机场叫什么名字 机场是24小时开放的吗?
首都新机场叫什么名字?一般指北京大兴国际机场。北京大兴国际机场定位为大型国际航空枢纽,国家发展新动力源,支撑雄安新区建设的京津冀区 【详细】
什么牌子的插排好 优质的插排应该具备哪些特质呢?
什么牌子的插排好品牌插座有公牛、西门子, TCL, 西蒙, 奇胜, 松下, 施耐德, ABB、朗能,等。为了满足大众对插座的各种需求,各 【详细】
李嘉诚的车是什么 李嘉诚长江塑料厂怎么样?
李嘉诚的车是什么说到李嘉诚,我们肯定会很熟悉。出生于潮汕的他是香港首富,也是中国顶级房地产大亨。根据《福布斯》、2020年发布的数据, 【详细】
飞龙股份002536今日主力资金流向 飞龙股份002536主力控盘分析
飞龙股份002536今日主力资金流向【飞龙股份(002536)】 今日主力资金流向,资金净流入105 11万元,今日超大单净流入296 82万元,大单净流入 【详细】
中国获得诺贝尔奖的人汇总 诺贝尔奖介绍
中国获得诺贝尔奖的人汇总截至目前为止,我国获得诺贝尔奖的人一共有十一个1、杨振宁,美籍华人,1957年获诺贝尔物理学奖。2、李政道,美籍 【详细】
相关新闻
- 谷歌推出专注于人工智能的“A3”超级计算机,拥有26000个GPU
- 赢了世界,却败给中国!世界首富携6万亿资产,被逼撤出中国市场
- 天味食品:1-4月公司营收同比增长23.12%左右|每日视点
- “驴头狼”是什么?为何会突然出现?给人类带来了什么警示? 今日热闻
- 保圣眼镜什么档次(太阳镜品牌排名怎样)
- 智能手机的“开箱更新”,其实有这些原因
- 印度推行电动汽车,计划从中国购入数千辆新能源,中方:先给钱!
- 为什么会存在二八法则? 世界看点
- 天天热议:抄袭OPPO设计?苹果卷轴iPhone专利曝光,国产手机提前布局!
- 华为Mate50Pro跟华为P60参数对比图,看完哪款更值得入手
- 2023广西二本大学排名【最新排行榜】
- IPO前瞻:先正达“改道”沪市主板,拟募资规模不变
- 焦点热讯:甘蔗空心是什么原因(甘蔗中空或中心呈红色是什么原因?)
- 热消息:突然被曝解散团队,董明珠的格力手机还是凉了?
- 大数据时代的必修课:计算机科学与技术专业是否值得报考?
- 天天快看点丨真我11 Pro+上手体验,越级越得根本不像一款中端机
- 巅峰对决!OPPO Reno10大战荣耀90,长焦镜头对护眼屏谁更香?
- 中国和中东欧国家青年科技人才发出倡议 为科技合作汇聚青春之力
- 环球关注:家里种芒果树风水好吗 家里种芒果树对风水有好处吗
- 德意志联邦银行巴尔茨:预计2025年欧元区通胀率才会接近2%的目标水平|每日视点