(原标题:芯片巨头组团,向英伟达NVLink开战)
若是您但愿不错频频碰面,迎接标星储藏哦~
据最新音讯败露,包括AMD、博通(Broadcom)、想科(Cisco)、Google、惠普(Hewlett Packard Enterprise,HPE)、英特尔(Intel)、Meta和微软(Microsoft)在内的八家公司宣告,他们照旧为东谈主工智能数据中心的收罗制定了新的互联时间UALink(Ultra Accelerator Link)。通过为东谈主工智能加快器之间的通讯竖立一个绽开圭臬,以冲突商场指点者 Nvidia的把持。
人所共知,英伟达是东谈主工智能芯片商场最大的参与者,他们在GPU上领有了齐备最初的份额。但其实除此之外,英伟达还领有一系列时间,可用于在多个 GPU 和系统上扩张责任负载。其中包括其片上和封装互连、用于作事器或 pod 中 GPU 到 GPU 通讯的 NVLink、用于扩张 pod 之外的 Infiniband 以及用于归拢到更无为基础设施的以太网。
当今,该行业的其他公司正试图用绽开圭臬进行反击,以争夺这些细分商场。客岁,咱们看到了 Ultra Ethernet,它使用增强型以太网旨在取代 Nvidia 的 InfiniBand 高性能互连,后者已飞速成为归拢 GPU 加快节点的事实圭臬,何况取得了丰厚的利润。
本年,咱们将取得 Ultra Accelerator Link 或 UALink ,一项旨在取代 Nvidia 的 NVLink 契约和 NVLink Switch(随机称为 NVSwitch)内存结构新圭臬。在具体先容UALink 之前,咱们先对Nvlink进行先容。
英伟达的隐形护城河
以前,咱们看到了许多筹商英伟达GPU和CUDA护城河的先容。诚然,过程多年的干预,他们照旧竖立起了难以逾越的上风。但除此之外,如上所述,英伟达还有许多隐形护城河,NVLink便是其中的一个,一个为GPU到GPU互联提供高速归拢的时间。
在摩尔定律缓缓失效,但对算力条款越来越高确当下,这种互联显得尤为必要。
按照英伟达在官方网站中暗意,NVLink 是民众始创的高速GPU 互连时间,为多GPU 系统提供另一种遴荐,与传统的PCI-E 科罚决策比较,速率方面领有显耀进步。使用NVLink 归拢两张NVIDIA GPU,即可弹性疏通系念体与遵守,知足专科视觉运算最高责任负载的需求。
相关贵府败露,NVLink 最初是一种将 Nvidia GPU 卡上的内存组合在沿途的模范,最终 Nvidia Research 收场了一个交换机来驱动这些端口,允许 Nvidia 以杠铃拓扑(barbell topology )归拢两个以上的 GPU,或以十字交叉方形拓扑(crisscrossed square topology)归拢四个 GPU,这种拓扑几十年来频频用于创建基于 CPU 的双插槽和四插槽作事器。
几年前,AI 系统需要八个或十六个 GPU 分享内存,以简化编程,并使这些 GPU 大致以内存速率(而不是收罗速率)拜访数据集。因此,实验室中的 NVSwitch 于 2018 年在基于“Volta”V100 GPU 加快器的 DGX-2 平台上飞速交易化。
目下,NVLink可在 GPU 之间以每秒 1.8 TB 的速率传输数据。此外,还有一个 NVLink 机架级交换机,大致在无舛误谋略结构中支持多达 576 个完全归拢的 GPU。通过 NVLink 归拢的 GPU 称为“pod”,暗意它们有我方的数据和谋略域。
其实除了Nvlink之外,还有两种归拢GPU的模范,划分是PCI总线和Server-to-Server互联。据了解,圭臬作事器频频不错在 PCI 总线上支持 4-8 个 GPU。通过使用GigaIO FabreX 内存结构等时间,不错将这个数字增多到 32 个。
除此之外,以太网或 InfiniBand不错归拢包含 GPU 的作事器。这种归拢级别频频称为横向扩张,其中较快的多 GPU 域通过较慢的收罗归拢以变成大型谋略收罗。
其实自从比特初始在机器之间移动以来,以太网一直是谋略机收罗的主力。最近,通过引入超等以太网定约,该标准已被推动以提供高性能。事实上,英特尔照旧在以太网上插上了互连旗号,因为英特尔 Gaudi -2 AI 处理器在芯片上领有 24 个 100 千兆以太网归拢。
不外,Nvidia 莫得加入超等以太网定约,因为他们在 2019 年 3 月收购 Mellanox 后,基本上独占了高性能 InfiniBand 互连商场。超等以太网定约旨在成为其他扫数东谈主的“InfiniBand”。值得一提的是,英特尔也曾高举 InfiniBand 大旗。
因此在这种情况下,关于其他东谈主来说,除了用于归拢 MI300A APU 的 AMD Infinity Fabric 之外,莫得其他遴荐。与 InfiniBand/以太网的情况近似,需要某种“超等”竞争敌手定约来填补非 Nvidia 的“pod 空白”。而这恰是UALink推出的报复原因。
什么是UALink?
超等加快器链(Ultra Accelerator Link,UALink)通常是一种可提高新一代AI/ML集群性能的高速加快器互连时间。八家发起厂商(和超等以太网定约一样,咱们也莫得在UAlink定约中看到英伟达的身影)也设置了一个绽开行业圭臬机构来制定相关时间标准,以促进新使用方式所需的突破性性能,同期支持数据中心加快器具绽开生态系统的发展。
在他们看来,发起这个圭臬很有必要。因为跟着AI谋略需求的增长,领有肃穆、低延伸且可高效纵向扩张的收罗,从而平缓将谋略资源添加到单个实例中至关报复。而针对纵向扩张功能制定绽开的行业圭臬标准,有助于为AI责任负载创建绽开的高性能环境,从而提供尽可能高的性能。
恰是由于这个原因,UALink和行业标准关于新一代AI数据中心用AI和机器学习、HPC和云诓骗要津的接口圭臬化终点收场至关报复。该责任组将制定相应的标准来界定AI谋略容器组中加快器与交换机之间进行纵向扩张通讯所需的高速低延伸互连。
从相关贵府不错看到,Ultra Accelerator Link 定约的中枢于客岁 12 月就照旧竖立,其时 CPU 和 GPU 制造商 AMD 和 PCI-Express 交换机制造商博通暗意,博通将来的 PCI-Express 交换机将支持 xGMI 和 Infinity Fabric 契约,用于将其 Instinct GPU 内存互相归拢,以及使用 CPU NUMA 一语气的加载/存储内存语义将其内存归拢到 CPU 主机的内存。相关音讯败露,这将是将来的“Atlas 4”交换机,它将礼服 PCI-Express 7.0 标准,并于 2025 年上市。博通数据中心科罚决策集团副总裁兼总司理 Jas Tremblay 阐发,外汇投资这项责任仍在进行中,但不要妄下论断。换而言之,咱们不要以为 PCI-Express 是独一的 UALink 传输,也不要以为 xGMI 是独一的契约。
AMD 为 UALink 名堂孝敬了鸿沟更广的 Infinity Fabric 分享内存契约以及功能更有限且特定于 GPU 的 xGMI,而扫数其他参与者皆应允使用 Infinity Fabric 动作加快器互连的圭臬契约。英特尔高档副总裁兼收罗和边际奇迹部总司理 Sachin Katti 暗意,由 AMD、博通、想科系统、谷歌、惠普企业、英特尔、Meta Platforms 和微软构成的 Ultra Accelerator Link“推动者小组”正在筹商使用以太网第 1 层传输层,并在其上秉承 Infinity Fabric,以便将 GPU 内存粘合到近似于 CPU 上的 NUMA 的宏大分享空间中。
如下图所示,咱们分享了若何使用以太网将 Pod 一语气到更大的集群:
如thenextplatform所说,没东谈主欲望将来自多个供应商的 GPU 归拢到一个机箱内,以致可能是一个机架或多个机架中的一个Pod内。但 UALink 定约成员如实敬佩,系统制造商将创建使用 UALink 的机器,并允许在客户构建其舱时将来自许多参与者的加快器放入这些机器中。您不错有一个带有 AMD GPU 的Pod,一个带有 Intel GPU 的Pod,另一个带有来自任性数目的其他参与者的自界说加快器Pod。它允许在互连级别收场作事器设想的通用性,就像 Meta Platforms 和 Microsoft 发布的绽开加快器模块 (OAM) 标准允许系统板上加快器插槽的通用性一样。
一言以蔽之,UALink 的一大上风是让业内其他扫数东谈主皆有契机与 NVIDIA 保握同步。NVIDIA 当今有才略制造NVSwitch盒并将这些 NVSwitch 托盘放入NVIDIA DGX GB200 NVL72等家具中。
英特尔本年的 AI 加快器销售额达数亿好意思元,这可能意味着它只卖出几万台加快器。AMD 本年将销售数十亿好意思元的 MI300X,但这仍然远不足 NVIDIA 的 AI 鸿沟。领有 UALink 允许像 Broadcom 这么的公司制造 UALink 交换机来匡助其他公司扩大鸿沟,然后在多家公司的加快器上使用这些交换机。
咱们照旧报谈了 Broadcom Atlas 交换机谋略与AMD Infinity Fabric AFL Scale Up 竞争 NVIDIA NVLink 行将出当今 PCIe Gen7 中的 Broadcom 交换机上。咱们在简报中被见知,这些可能会收场 UALink 的 V1.0。固然,UALink V1.0 标准尚未出台。
他们暗意,1.0版的标准将允许在AI容器组中归拢不卓绝1,024个加快器,支持在容器组中挂载到加快器(举例GPU)的内存之间进行平直加载和存储。UALink发起东谈主责任组照旧设置了UALink定约,瞻望将在2024年第三季度珍爱设置。1.0版标准瞻望将于2024年第三季度推出,并向参加超等加快器链(UALink)定约的公司绽开。
CXL奈何办?
其着实以前几年,行业参与者照旧承诺过在 PCI-Express 结构上运行的 Compute Express Link (CXL) 契约将提供通常的功能。举例CXLmem 子集就照旧提供了 CPU 和 GPU 之间的内存分享吗。
但在分析东谈主士看来,PCI-Express 和 CXL 是更无为的传输和契约。
Katti 指出,AI 加快器模块的内存域比 CPU 集群的内存域大得多,咱们知谈 CPU 集群的扩张鸿沟从 2 个到 4 个,随机到 8 个,很少到 16 个谋略引擎。许多东谈主觉得,AI 加快器的 GPU 模块可扩张到数百个谋略引擎,何况需要扩张到数千个。更报复的是,与 CPU NUMA 集群不同,GPU 集群(尤其是运行 AI 责任负载的集群)对内存延伸的容忍度更高。
为此The Next Platform暗意,咱们不要指望看到 UALinks 将 CPU 紧缚在沿途,但莫得根由敬佩将来的 CXL 一语气最终不会成为 CPU 分享内存的圭臬神情——以致可能跳跃不同的架构。
这本体上是为了冲突 NVLink 在互集中构内存语义方面的把持。非论 Nvidia 若何使用 NVLink 和 NVSwitch,它的几家竞争敌手皆需要为潜在客户提供可靠的替代决策——非论他们是销售 GPU 照旧其他类型的加快器或通盘系统——这些潜在客户确定但愿为 AI 作事器节点和机架式拓荒提供比 Nvidia 互连更绽开、更低廉的替代决策。
“当咱们谛视通盘数据中心对 AI 系统的需求时,有少许十分明显,那便是 AI 模子络续大鸿沟增长,”AMD 数据中心科罚决策奇迹部总司理 Forrest Norrod 说谈。“每个东谈主皆不错看到,这意味着关于开始进的模子,许多加快器需要协同责任以进行推理或磨练。大致扩张这些加快器关于推动将来大鸿沟系统的效率、性能和经济性至关报复。扩张有几个不同的方面,但 Ultra Accelerator Link 的扫数支持者皆十分热烈地感受到,行业需要一个不错快速激动的绽开圭臬,一个允许多家公司为通盘生态系统增涨价值的绽开圭臬。何况允许改进不受任何一家公司的抑遏而快速进行。”
毫无疑问,AMD Forrest Norrod说的这家公司便是Nvidia,他们通过投资了InfiniBand,并创建了具有齐备超大收罗带宽的 NVSwitch 来为 GPU 进行 NUMA 集群。固然,他们最初这么作念的是因为 PCI-Express 交换机在总带宽方面仍然有限。
道理的是,UALink 1.0 标准将在本年第三季度完成,届时 Ultra Accelerator Consortium 也将加入进来,领有学问产权并推动 UALink 圭臬的发展。本年第四季度,UALink 1.1 更新将发布,这将进一步提高鸿沟和性能。目下尚不澄澈 1.0 和 1.1 UALink 标准将支持哪些传输,或者哪些将支持 PCI-Express 或以太网传输。
使用 NVLink 4 端口的 NVSwitch 3 结构表面上不错在分享内存 pod 中跳跃多达 256 个 GPU,但 Nvidia 的交易家具仅支持 8 个 GPU。借助 NVSwitch 4 和 NVLink 5 端口,Nvidia 表面上不错支持跳跃多达 576 个 GPU 的 pod,但本体上,交易支持仅在 DGX B200 NVL72 系统中最多 72 个 GPU 的机器上提供。
如今,许多公司皆在尝试秉承圭臬 PCIe 交换机并构建基于 PCIe 的结构以扩张到更多加快器。业内大公司似乎将此视为权宜之策。相背,NVIDIA 的 NVLink 更像是业内扩张的黄金圭臬。
当今,UAlink团队正准备发布零散 NVLink 的公开竞争敌手。
扫数这些皆需要时候。记者在简报会上问这是否是一个 2026 年傍边的本质指标。2024 年还太早,即使它被融入到家具中,目下也不太可能成为 2025 年头的家具。若是你望望CXL或UCIe,这些圭臬需要很万古候能力最终成为家具。2026 年将是一个快速本质的时候。
关于 AMD 和英特尔等公司来说,这提供了一条复制 NVLink 和 NVSwitch 功能并与其他公司分享开发恶果的路线。像博通这么的公司很可能是最大的赢家,因为它定位为非 NVIDIA 系统的归拢提供商,非论是用于纵向扩张照旧横向扩张。非论是 AMD 照旧英特尔奏效,博通皆在销售归拢。关于超大鸿沟企业来说,非论谁制造端点,投资圭臬化结构的才略皆十分特殊想。
趁便说一句,在 2019-2020 年时间,行业筹商将 CXL in-box 和Gen-Z动作扩张科罚决策。许多当年展示 Gen-Z 的东谈主当今皆在 AMD 责任,就像 AMD 多年来一直在组建一支团队,他们看到并一直在悉力科罚扩张挑战。
但愿咱们大致尽快看到 UALink 干预使用。对啦,多说一句,貌似莫得看到Marvell的身影?
https://www.businesswire.com/news/home/20240530795219/zh-CN
https://www.nextplatform.com/2024/05/30/key-hyperscalers-and-chip-makers-gang-up-on-nvidias-nvswitch-interconnect/
https://www.servethehome.com/ualink-will-be-the-nvlink-standard-backed-by-amd-intel-broadcom-cisco-and-more/
点这里加关怀,锁定更多原创内容
*免责声明:本文由作家原创。著述内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或支持,若是有任何异议,迎接筹商半导体行业不雅察。
今天是《半导体行业不雅察》为您分享的第3782期内容,迎接关怀。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的内容就点“在看”分享给小伙伴哦