AMD、博通、思科、谷歌、惠普企业 (HPE)、英特尔、Meta 和微软正在结合他们的专业知识,为名为 Ultra Accelerator Link 的人工智能芯片技术创建一个开放的行业标准。该设置将改善数据中心人工智能加速器芯片之间的高速和低延迟通信。
开放标准将提高整个行业的人工智能/机器学习集群性能,这意味着没有一家公司能够不成比例地利用对最新、最好的人工智能/机器学习、高性能计算和云应用程序的需求。
值得注意的是,NVIDIA 和 Amazon Web Services 并未出现在所谓的 UALink 推广组中。事实上,Promote Group 可能打算通过其新的互连标准来推翻两家公司分别在人工智能硬件和云市场的主导地位。
UALink 推广组织预计将在 2024 年第三季度建立一个由公司组成的联盟,负责管理 UALink 标准的持续开发,并在大约同一时间获得 UALink 1.0 的访问权限。更高带宽的版本预计于 2024 年第四季度发布。
看:
Ultra Accelerator Link(UALink)是一种连接服务器中人工智能加速器芯片的定义方式,以实现它们之间更快、更高效的通信。
AI加速器芯片与GPU、TPU和其他专用AI处理器一样,是所有AI技术的核心。每一个都可以同时执行大量复杂的操作;然而,为了实现训练、运行和优化人工智能模型所需的高工作负载,它们需要连接起来。加速器芯片之间的数据传输速度越快,它们访问和处理必要数据的速度就越快,并且共享工作负载的效率也越高。
UALink 推广组织即将发布的第一个标准 UALink 1.0 将包含多达 1,024 个 GPU AI 加速器,分布在服务器中的一个或多个机架上,连接到单个 Ultra Accelerator 交换机。据 UALink 推广组织称,这将“允许在连接到 AI 加速器的内存之间进行直接加载和存储,与现有互连规范相比,通常会提高速度,同时降低数据传输延迟。”随着需求的增加,它还将使扩大工作负载变得更加简单。
虽然 UALink 的具体细节尚未公布,但小组成员在周三的简报中表示,UALink 1.0 将涉及AMD 的 Infinity Fabric 架构而超以太网联盟将涵盖连接多个“pod”或交换机。它的发布将使系统 OEM、IT 专业人员和系统集成商受益,他们希望以支持高速度、低延迟和可扩展性的方式建立数据中心。
哪些公司加入了 UALink 推广组?
- AMD。
- 博通。
- 思科。
- 谷歌。
- 慧与。
- 英特尔。
- 元。
- 微软。
微软、Meta 和谷歌都在 NVIDIA GPU 上花费了数十亿美元用于各自的人工智能和云技术,包括Meta 的 Llama 模型,谷歌云和微软Azure。然而,支持 NVIDIA 持续保持硬件主导地位对于他们各自在该领域的未来来说并不是好兆头,因此明智的做法是制定退出策略。
标准化的 UALink 交换机将允许 NVIDIA 以外的提供商提供兼容的加速器,为人工智能公司提供一系列替代硬件选项来构建他们的系统,而不会受到供应商锁定。
这使集团中许多已经开发或正在开发自己的加速器的公司受益。谷歌拥有定制的 TPU 和 Axion 处理器;英特尔有高迪;微软有 Maia 和 Cobalt GPU; Meta 有 MTIA。这些都可以使用 UALink 进行连接,这很可能是由 Broadcom 提供的。
看:
哪些公司尚未加入 UALink 推广组?
英伟达
英伟达没有加入该组织可能有两个主要原因:其在人工智能相关硬件领域的市场主导地位以及其高价值带来的巨大权力。
该公司目前持有估计80%的GPU市场份额,但它也是 NVLink、Infiniband 和以太网互连技术的重要参与者。 NVLink具体来说是一种GPU到GPU互连技术,可以连接一个或多个服务器内的加速器,就像UALink一样。因此,NVIDIA 不希望与最接近的竞争对手分享这项创新也就不足为奇了。
此外,根据其最新财务业绩,NVIDIA即将超越苹果,成为全球第二大最有价值的公司,其价值翻了一番超过2万亿美元在短短九个月内。
该公司并不希望从人工智能技术的标准化中获得太多收益,目前的地位也很有利。时间会证明 NVIDIA 的产品是否会成为数据中心运营不可或缺的一部分,以至于第一批 UALink 产品不会推翻其桂冠。
看:
亚马逊网络服务
AWS 是主要公有云提供商中唯一一家未加入 UALink 推广者小组的公司。和NVIDIA一样,这也可能和它作为当前的影响力有关。云市场领导者事实上,它正在开发自己的加速器芯片系列,例如 Trainium 和 Inferentia。此外,凭借超过 12 年的牢固合作伙伴关系,AWS 也可能在这一领域躲在 NVIDIA 后面。
为什么人工智能需要开放标准?
开放标准有助于防止一家恰好在正确的时间出现在正确的地点的公司占据不成比例的行业主导地位。 UALink 推广组将允许多家公司在人工智能数据中心必需的硬件上进行协作,这样任何一个组织都无法接管这一切。
这并不是人工智能领域的第一次此类反抗。 12 月,超过 50 个其他组织促进负责任的开源人工智能,并帮助防止封闭模型开发人员获得过多权力。
知识共享还有助于加速全行业范围内人工智能性能的进步。对人工智能计算的需求不断增长,科技公司要想跟上,就需要最好的扩展能力。该组织表示,UALink 标准将提供“强大、低延迟和高效的扩展网络,可以轻松地将计算资源添加到单个实例”。
AMD 数据中心解决方案事业部执行副总裁兼总经理 Forrest Norrod 在一份报告中表示新闻稿:“UALink 中的公司正在努力创建开放、高性能和可扩展的加速器结构,这对于人工智能的未来至关重要。
“我们共同带来了创建大规模人工智能和高性能计算解决方案的丰富经验,这些解决方案基于开放标准、高效和强大的生态系统支持。AMD 致力于为集团以及其他开放行业贡献我们的专业知识、技术和能力,以推进人工智能技术的各个方面并巩固开放的人工智能生态系统。”
