拳打Intel、脚踢NV！AMD发布128核心Zen4c、1530亿晶体管GPU怪兽环球要闻

2022年11月，AMD正式发布了代号“Genoa”(热那亚)的新一代数据中心处理器EPYC 9004系列，不但节奏上抢在了竞品之前，规格、性能更是碾压一般的存在。

5nm制造工艺、chiplet小芯片架构、Zen4 CPU架构、最多96核心192线程和384MB三级缓存、12通道6TB DDR5-4800内存、160条PCIe 5.0总线通道……

【资料图】

如此先进的存在，直接让竞品相形见绌，更进一步，Genoa EPYC 9004系列并非全部，只是AMD新一代数据中心处理器家族中的一员。

AMD官方早就预告了由Genoa衍生出来的另外三个分支，分别面向不同应用领域和工作负载，共同组成一个庞大的阵营。

其中，“Genoa-X”(热那亚-X)加入3D缓存，主打更高性能计算；

“Bergamo”(贝加莫)首次采用精简架构Zen4c，是AMD首款专门针对云原生计算设计的产品；

“Siena”(锡耶纳)也是Zen4c架构，服务于电信基础设施、边缘计算市场。

现在，Bergamo、Genoa-X终于来了，Siena也将在下半年跟上，轮番出击，势不可挡。

这里，我们先来看看EPYC 9704系列，基于特别设计的Zen4c架构。

Zen4c架构其实就是Zen4的精简版，可以说是一个小核、一个大核，一个注重高能效、一个追求极致性能。

但是不同于Intel混合架构中性能核、能效核在架构、规格上截然不同，AMD让两种核心架构保持了高度的一致性。

它们都基于同样的ISA指令集和IPC性能，几乎所有的微架构指标都一模一样，主要区别就是三级缓存，平均每核心的容量从4MB减半到2MB。

另外，AMD在消费级的锐龙处理器上未来也会引入“大小核”，但也是类似的理念，小核部分精简的基本只是缓存。

内部经过重新设计之后，包含二级缓存在内的单个Zen4c核心面积仅为2.48平方毫米，相比Zen4核心的3.84平方毫米，缩小了多达35.4％，从而可以大大提高核心密度。

其他诸如前端单元、非核心单元、执行单元、FPU浮点单元等模块也都缩小了40％上下。

单个CCD内的核心数量从8个翻番到16个，面积依然控制在72.7平方毫米，相比Zen4 CCD的66.3平方毫米只增加了9.7％。

单颗芯片的CCD总数从12个减少到8个，但是核心数量从最多96个(192线程)增加到最多128个(256线程)。

缓存方面，一级缓存不变还是每核心32KB指令缓存、32KB数据缓存，但因为核心数多了，总量从6MB增加到8MB。

二级缓存每个核心还是独享1MB，合计增加到最多128MB，相比Zen4 EPYC增加了32MB。

三级缓存还是每个CCD 32MB，不过从8个核心一组CCX共享全部32MB，改成了每8个核心一组CCX共享其中一半16MB，合计总量256MB，相比Zen4 EPYC少了128MB。

事实上，AMD完全可以继续在单颗芯片内放置12个CCD，那样将拥有恐怖的192核心384线程、128MB二级缓存、384MB三级缓存……

对比Zen4 EPYC 9004、Zen4c EPYC 9704两大系列的平台特性，可以看到二者的高度一致性，可以说除了核心数量、缓存容量之外，几乎一切都是通用的。

同样的5nm制造工艺，同样的12通道DDR5内存、160条PCIe 5.0总线，同样的安全特性，同样的SP5封装接口。

对于客户来说，可以根据应用负载、场景的需要，在两大系列产品之间无缝切换或升级。

Zen4c EPYC 9704系列，目前只有三款型号：

EPYC 9754：

满血版本，完整的128核心，频率2.25-3.1GHz，相比于Zen4 96核心的EPYC 9654分别低了150MHz、600MHz，而热设计功耗保持不变，默认还是360W，可调范围320-400W。

EPYC 9754S：

就是在EPYC 9754的基础上关闭了SMT同步多线程技术，变为128核心128线程，其他完全相同。

EPYC 9734：

精简到112核心224线程、112MB二级缓存，三级缓存不变还是完整的256MB，核心频率略微降至2.2-3.0GHz，默认热设计功耗也降至340W，可调范围仍是320-400W。

Zen4c EPYC 9704系列的真正对手，其实是Ampere、NVIDIA、亚马逊等厂商的众多Arm架构数据中心处理器，以及Intel计划明年推出的Sierra Forest，后者首次采用纯能效核设计，但最多只有144核心144线程，不但数量处于劣势，架构性能上更是差了N个档次。

可以说，无论规格参数，还是性能表现，Zen4c都可以轻松碾压它们，尤其是对比Arm产品更是有着x86成熟生态的天然优势。

性能方面，AMD使用EPYC 9754，对比了两个竞品，一是Intel最新一代旗舰Sapphire Rapids四代可扩展至强铂金8490H，后者有60核心120线程、112.5MB三级缓存、1.9-3.5GHz频率，热设计功耗350W，二是Ampere AltraMax，128核心(更新的AltraOne最高可以192核心但尚未上市)。

具体数据就不一一列举了，反正无论是性能还是能效，EPYC都是碾压一般的存在。

Zen4c Bergamo EPYC 9704系列处理器现已上市，相关解决方案也正在陆续登场，比如戴尔的PowerEdge服务器就已支持，针对云原生负载做了特别优化。

现场实拍：

数据中心领域，AMD还有创新。

2022年3月，AMD发布了代号“Milan-X”(米兰-X)的EPYC 7003X系列处理器，在原有Milan EPYC 7003系列的基础上，加入3D V-Cache缓存，成为世界上首款采用3D芯片堆叠额数据中心CPU。

EPYC 7003X系列的每个CCD上堆叠了64MB 3D缓存，八个CCD就是512MB，再加上原生的256MB三级缓存，合计就是768MB。

更关键的是，3D缓存、三级缓存具备同样的访问带宽、延迟，可以视为一个整体，这就等于瞬间将三级缓存扩大了三倍，由此带来的性能提升堪称恐怖。

如今，在新一代Genoa EPYC 9004系列的基础上，AMD如法炮制，发布了Genoa-X EPYC 9084X系列，缓存规模更加暴力。

接下来就看看它到底有多么暴力。

首先，Genoa-X系列上使用的3D V-Cache技术，从原理到实现方式都和上代Milan-X系列，以及桌面上的锐龙7 5800X3D、锐龙7000X3D如出一辙。

3D缓存部分采用7nm制造工艺，因为不需要逻辑电路、控制单元等，只需单纯地堆砌SRAM阵列单元，所以容量可以做得更大，目前是64MB，两倍于原生三级缓存。

3D缓存部分“面朝下”扣在5nm制造工艺的CCD之上，通过混合键合的方式组合成一个整体，通过TSV硅穿孔提供信号、电源传输通道。

MD也是目前唯一批量出货混合键合封装产品的企业。

由于3D缓存部分面积较小，因此还设计了结构性的Die，同样覆盖在CCD、IOD之上，保证整体高度的一致性，便于封装、散热。

Genoa-X系列和Genoa系列一样都是最多96个Zen4核心与384MB原生三级缓存，分为12个CCD，也就是每个CCD上自带32MB三级缓存。

不同之处在于，Genoa-X在每个CCD上额外堆叠了64MB 3D缓存，12个CCD就是768MB，这样一来总的三级缓存就达到了惊人的1152MB，也是处理器缓存史上第一次突破1GB。

如果再算上6MB一级缓存(每核心独享64KB)、96MB二级缓存(每核心独享1MB)，Genoa-X的缓存总量就是1254MB！

型号一共三款：

EPYC 9684X：

96核心192线程，频率2.55-3.7GHz，三级缓存1152MB(384MB＋768MB)，默认TDP 400W，可调范围320-400W。

EPYC 9384X：

32核心64线程，频率3.1-3.9GHz，三级缓存768MB，默认TDP 320W，可调范围320-400W。

EPYC 9184X：

16核心32线程，频率3.55-4.2GHz，三级缓存768MB，TDP同上。

后两款型号都开启了8个CCD，三级缓存部分包括原生的256MB、3D堆叠的512MB。

另外，对比非3D缓存的EPYC 9004系列，缓存大增的同时，频率不得不有所妥协，但主要只是降低了基准频率，最高加速频率变化并不大。

性能方面，海量缓存带来的优势可以说是断崖式的，不过AMD并未对比原有的Genoa 9004系列，而是把竞品拿过来好好欺负了一顿，60核心的旗舰级至强铂金8490H完全没法打，各种性能测试都是两三倍的差异。

得益于超多核心、超大缓存两大优势集于一体，Genoa-X系列实现了超高的计算密度，而且多处理器互连的效率非常高，几乎可以呈线性提升。

按照官方说法，Genoa-X只需要8个节点，就可以达成传统14个节点的性能水平。

戴尔、慧与(HPE)、联想、超微等都将推出基于Genoa-X的产品。

接着看加速卡。

AI浪潮中，NVIDIA无疑是最大受益者，A100等加速卡供不应求，多年耕耘的成熟生态更是大大降低了开发难度和成本。

当然，Intel、AMD不会让NVIDIA独美，都在尝试各自的方案，设计新的硬件产品。

Intel一方面是传统的至强x86 CPU处理器，另一方面是基于Xe HPC高性能计算架构的GPU，首款产品Ponte Vecchio已经用于超级计算机，还在尝试融合CPU+GPU，打造所谓的XPU，只是首款产品Flacon Shores出师未捷，退回了纯GPU方案，未来再冲击CPU+GPU融合。

AMD在硬件层面的进展就顺利多了，不但有越来越强悍的EPYC CPU处理器，Instinct系列加速卡也是每一代都在飞跃。

早在今年初，AMD就宣布了新一代Instinct MI300，是全球首款同时集成CPU、GPU的数据中心APU。

现在，它的名字变成了Instinct MI300A，同时AMD还首次宣布了全新的纯GPU产品——“Instinct MI300X”。

Instinct MI300A号称全球首款面向HPC、AI的APU加速器，基于AMD多年的成熟丰富经验，实现了CPU、GPU的完美合体。

Instinct MI300A一共有多达13颗小芯片，其中计算部分9颗，都是5nm工艺制造。

CPU部分为Zen4架构，三颗CCD芯片，24个核心，GPU为最新的CDNA3架构，六颗XCD芯片，核心单元数量仍未公布，还有128GB容量的HBM3高带宽内存，可以为CPU、GPU所共享。

另外4颗芯片都是6nm工艺制造，是计算部分3D堆叠的基础，作为有源中介层，可以处理I/O和其他各种功能。

整颗芯片有多达1460亿个晶体管，超过了Intel 1000亿个晶体管的Ponte Vecchio，而且后者只有GPU。

标准的Socket独立封装(不是SP5)，有了它就不再需要单独的EPYC处理器，一颗芯片组就能构成一个完整的计算系统。

，

Instinct MI300X和前辈一样是纯GPU方案，其实就是把Instinct MI300A里的那个CPU单元也换成了CDNA3 GPU单元，HBM3高带宽内存也增加到了192GB，相当于NVIDIA H100 80GB的足足2.4倍。

同时，HBM内存带宽高达5.2TB/s，Infinity Fabric总线带宽也有896GB/s，同样远超NVIDIA H100。

晶体管数量进一步来到1530亿个，跨越了1500亿大关，叹为观止。

发布会现场，AMD第一次公开展示了Instinct MI300X，实时输出了一首关于旧金山的诗歌。

它单卡即可轻松运行400亿参数的大语言模型，面对不同模型、参数规模所需的GPU数量相比竞品更少，自然成本更低。

得益于超大的HBM3内存，这个大模型，其实就是完全在HBM3内存中运行的，无需使用系统内存，自然节省了数据的传输与拷贝，从而大大降低延迟、提升性能。

同时，AMD还宣布了新的Instinct平台，基于业界标准的OCP开放计算标准，八块Instinct MI300X加速卡并行，可提供总计多达1.5TB HBM3内存。

Instinct MI300A现已出样，Instinct MI300X将在第三季度出样，相关产品预计第四季度上市。

MI300A

MI300X

Instinct平台

关键词：

拳打Intel、脚踢NV！AMD发布128核心Zen4c、1530亿晶体管GPU怪兽环球要闻

推荐阅读

天然气泄露会造成爆炸吗?天然气泄漏怎么办?

四部门明确App收集个人信息范围个人信息保护范围判断标准

丰田致炫介绍致炫威驰对比汇总

地中海气候特征是什么地中海气候的形成条件?

我们知道太阳系的边缘是什么样的吗外日光层标志着什么?

相关新闻

新闻

热点

资讯

拳打Intel、脚踢NV！AMD发布128核心Zen4c、1530亿晶体管GPU怪兽 环球要闻

推荐阅读

天然气泄露会造成爆炸吗?天然气泄漏怎么办?

四部门明确App收集个人信息范围 个人信息保护范围判断标准

丰田致炫介绍 致炫威驰对比汇总

地中海气候特征是什么 地中海气候的形成条件?

我们知道太阳系的边缘是什么样的吗 外日光层标志着什么?

相关新闻

新闻

热点

资讯

拳打Intel、脚踢NV！AMD发布128核心Zen4c、1530亿晶体管GPU怪兽环球要闻

四部门明确App收集个人信息范围个人信息保护范围判断标准

丰田致炫介绍致炫威驰对比汇总

地中海气候特征是什么地中海气候的形成条件?

我们知道太阳系的边缘是什么样的吗外日光层标志着什么?