PCB智造商

四年卖出500万个H100AI吞噬全球电量

日期2024-05-17 04:18:36 来源:华体会登录地址 作者:华体会登录页面阅读:7

  对人工智能集群的需求激增导致人们对数据中心容量的关注激增,这给电网、发电能力和环境带来了极大的压力。人工智能的建设受到数据中心容量缺乏的严重限制,特别是在训练方面,因为 GPU 通常需要位于同一位置以实现高速芯片到芯片网络。推理的部署受到各个地区的总容量以及即将上市的更好模型的严重限制。

  关于瓶颈在哪里有很多讨论——额外的电力需求有多大?GPU 部署在哪里?北美、日本、、新加坡、马来西亚、韩国、中国、印度尼西亚、卡塔尔、沙特阿拉伯和科威特等地区的数据中心建设进展如何?加速器的增长何时会受到物理基础设施的限制?是变压器、发电机、电网容量还是我们跟踪的其他 15 个数据中心组件类别之一?需要多少资本支出?哪些超大规模企业和大公司正在竞相确保足够的容量,哪些将因为没有数据中心容量而措手不及而受到严重限制?未来几年,千兆瓦级和更大的训练集群将建在哪里?天然气、太阳能和风能等发电类型的组合是什么?这是否可持续,或者人工智能的发展会破坏环境吗?

  许多人对数据中心建设速度提出了荒谬的假设。甚至埃隆·马斯克也发表了看法,但他的评估并不完全准确。

  他表示,上线的人工智能计算似乎每六个月就会增加 10 倍……然后,很容易预测下一个短缺将是降压变压器。你必须为这些东西提供能量。如果公用设施输出 100-300 千伏电压,并且必须一路降压至 6 伏,那么降压幅度就很大。我的不太好笑的笑话是,你需要变压器来运行变压器……那么,下一个短缺将是电力。他们将无法找到足够的电力来运行所有芯片。我想明年,你会发现他们找不到足够的电力来运行所有芯片。

  需要明确的是,他对物理基础设施的这些限制的看法基本上是正确的,但计算量并不是每六个月就会增长 10 倍——我们跟踪所有主要超大规模和商业硅公司的 CoWoS、HBM 和服务器供应链,并看到测量的总 AI 计算能力自 2023 年第 1 季度以来,理论峰值 FP8 FLOPS 一直以季度环比 50-60% 的速度快速增长。换而颜值,在六个月内增长远未达到 10 倍,这是因为CoWoS 和 HBM 的增长速度根本不够快。

  由transformer驱动的生成式人工智能的繁荣确实需要大量的变压器、发电机和无数其他电气和冷却部件。

  许多粗略的猜测或直接危言耸听的叙述都是基于过时的研究。IEA 最近的《电力 2024》报告指出,到 2026 年,人工智能数据中心的电力需求将达到 90 太瓦时 (TWh),相当于约 10 吉瓦 (GW) 的数据中心关键 IT 电力容量,或相当于 730 万台 H100。我们估计,从 2021 年到 2024 年底,仅 Nvidia 就将交付满足 500 万台以上 H100 功率需求的加速器(事实上,主要是 H100 的出货量),并且我们预计到 2025 年初,AI 数据中心容量需求将超过 10 GW。

  上面的报告低估了数据中心的电力需求,但也有很多高估的地方——一些来自危言耸听阵营的人回收了在加速计算广泛采用之前写的旧论文,这些论文指出了最坏的情况,即数据中心消耗大量电力。到 2030 年,发电量将达到 7,933 TWh,占全球发电量的 24%!

  其中许多粗略估计都是基于全球互联网协议流量增长估计的函数,以及因效率增益而抑制的每单位流量使用功率的估计——所有数字都极难估计,而其他数字则采用自上而下的方法在前人工智能时代创建的数据中心功耗估算。麦肯锡的估计也很糟糕,这几乎相当于把手指放在随机的复合年增长率上,然后用精美的图形重复它。

  我们的方法通过对北美现有托管和超大规模数据中心的 1,100 多个数据中心进行分析来预测人工智能数据中心的需求和供应,包括正在开发的数据中心的建设进度预测,并且首次针对此类类型的研究,我们将其结合起来数据库包含源自, 我们的 AI 加速器模型的 AI 加速器电力需求,用于估计 AI 和非 AI 数据中心关键 IT 电力需求和供应。我们还将这一分析与Structure ResearchStructure Research整理的北美以外地区(亚太地区、中国、欧洲、中东和非洲、拉丁美洲)的区域总体估计相结合,以提供数据中心趋势的整体全球视图。我们通过跟踪各个集群来补充区域估计,并根据卫星图像和施工进度进行建设,例如位于新加坡以北几英里的马来西亚新山(主要由中国公司)的高达 1,000 兆瓦的开发管道。

  这种跟踪是由超大规模企业完成的,很明显,从中期来看,人工智能领域的一些最大的参与者将在可部署的人工智能计算方面落后于其他参与者。

  人工智能的繁荣确实会迅速加速数据中心能耗的增长,但短期内全球数据中心的用电量仍将远低于占总发电量24%的末日情景。我们相信,到 2030 年,人工智能将推动数据中心使用全球能源发电量的 4.5%。

  未来几年,数据中心电力容量增长将从 12-15% 的复合年增长率加速至 25% 的复合年增长率。全球数据中心关键 IT 电力需求将从 2023 年的 49 吉瓦 (GW) 激增至 2026 年的 96 吉瓦,其中人工智能将消耗约 40 吉瓦。事实上,扩建并不是那么顺利,真正的电力紧缩即将到来。

  对丰富、廉价电力的需求,以及快速增加电网容量的同时仍满足超大规模企业的碳排放承诺,再加上芯片出口限制,将限制能够满足人工智能数据中心需求激增的地区和国家。

  美国等一些国家和地区将能够以低电网碳强度、供应稳定的低成本燃料来源灵活应对,而欧洲等其他国家和地区将受到地缘现实和电力结构性监管限制的有效束缚。其他人只会简单地增加容量,而不关心环境影响。

  首先,模型训练数周或数月,网络连接要求相对限于训练数据进入。训练对延迟不敏感,并且不需要靠近任何主要人口中心。人工智能训练集群基本上可以部署在世界上任何具有经济意义的地方,但须遵守数据驻留和合规性法规。

  要记住的第二个主要区别也有些明显——人工智能训练工作负载非常耗电,并且与传统的非加速超大规模或企业工作负载相比,运行人工智能硬件的功率水平往往更接近其热设计功耗 (TDP)。此外,虽然 CPU 和存储服务器的功耗约为 1kW,但每个 AI 服务器的功耗现在已超过 10kW。再加上对延迟的不敏感以及靠近人口中心的重要性降低,这意味着提供大量廉价电力(以及未来 - 访问任何电网供应)对于人工智能培训工作负载的相对重要性要高得多与传统工作负载相比。顺便说一句,其中一些是无用的加密货币挖矿作业所共有的要求,而单个站点没有超过 100 兆瓦的扩展优势。

  另一方面,推理最终的工作量比训练更大,但它也可以相当分散。芯片不需要位于中心位置,但其庞大的体积将非常出色。

  AI加速器具有较高的利用率(就功耗而言,而不是MFU)。每台 DGX H100 服务器正常运行时的预期平均功率 (EAP) 约为 10,200 W,每台服务器 8 个 GPU 的每一个 GPU 的功率为 1,275 W。其中包括 H100 本身的 700W 热设计功耗 (TDP),以及双 Intel Xeon Platinum 8480C 处理器的约 575W(分配给每个 GPU)以及 2TB DDR5 内存、NVSwitches、NVLink、NIC、重定时器、网络收发器等加上整个 SuperPOD 的存储和管理服务器以及各种网络交换机的电力需求,我们的有效电力需求为每台 DGX 服务器 11,112W 或每台 H100 GPU 1,389W。与我们考虑的 HGX H100 相比,DGX H100 配置在存储和其他项目方面有些过度配置。像 Meta 这样的公司已经发布了有关其完整配置的足够信息,以估计系统级功耗。

  关键 IT 电源定义为数据中心楼层可用于服务器机架内的计算、服务器和网络设备的可用电力容量。它不包括数据中心运行冷却、电力输送和其他设施相关系统所需的电力。要计算本示例中需要构建或购买的关键 IT 电源容量,请将已部署 IT 设备的总预期电源负载相加。在下面的示例中,20,480 个 GPU(每个 GPU 功率为 1,389W)相当于所需的关键 IT 功率为 28.4 MW。

  为了获得 IT 设备预计消耗的总功率(消耗的关键 IT 功率),我们需要应用相对于所需的关键 IT 功率的可能利用率。这一因素说明了 IT 设备通常不会以其设计能力 100% 运行,并且可能无法在 24 小时内得到相同程度的利用。在本例中,该比例设置为 80%。

  除了关键 IT 电力消耗之外,运营商还必须提供冷却电力,以弥补配电损耗、照明和其他非 IT 设施设备。业界通过电力使用效率(PUE)来衡量数据中心的能源效率。计算方法是将进入数据中心的总电量除以运行数据中心内 IT 设备所用的电量。这当然是一个非常有缺陷的指标,因为服务器内的冷却被视为“IT 设备”。我们通过将消耗的关键 IT 功耗乘以电源使用效率 (PUE) 来解释这一点。PUE 较低表示数据中心能效更高,PUE 为 1.0 表示数据中心非常高效,没有冷却或任何非 IT 设备的功耗。典型的企业托管 PUE 约为 1.5-1.6,而大多数超大规模数据中心的 PUE 低于 1.4,一些专用构建设施(例如 Google 的)声称可以实现低于 1.10 的 PUE。大多数 AI 数据中心规格的目标是低于 1.3 PUE。过去 10 年,全行业平均 PUE 下降,从 2010 年的 2.20 下降到 2022 年估计的 1.55,这是节能的最大推动因素之一,并有助于避免数据中心功耗的失控增长。

  例如,在利用率为 80% 且 PUE 为 1.25 的情况下,拥有 20,480 个 GPU 集群的理论数据中心平均将从电网获取 28-29MW 电力,每年总计 249,185 兆瓦时,这将花费 2070 万美元每年电力美元,基于美国每千瓦时 0.083 美元的平均电价。

  虽然 DGX H100 服务器需要 10.2 千瓦 (kW) 的 IT 电源,但大多数托管数据中心仍然只能支持每个机架约 12 千瓦的电源容量,尽管典型的超大规模数据中心可以提供更高的电源容量。

  因此,服务器部署将根据可用的电源和冷却能力而有所不同,在电源/冷却受限的地方仅部署 2-3 台 DGX H100 服务器,并且整排机架空间闲置,以将电力传输密度从 12 kW 翻倍至 24 kW。托管数据中心。实施此间隔也是为了解决冷却超额订购问题。

  随着数据中心的设计越来越考虑人工智能工作负载,机架将能够通过使用专用设备增加气流来利用空气冷却来实现 30-40kW+ 的功率密度。未来使用直接芯片液体冷却为更高的功率密度打开了大门,通过消除风扇 功率的使用,可以将每个机架的功耗降低 10%,并通过减少或消除对环境的需求,将 PUE 降低 0.2-0.3空气冷却,虽然 PUE 已经在 1.25 左右,但这将是最后一波有意义的 PUE 增益。

  许多运营商提出的另一个重要考虑因素是,各个 GPU 服务器节点最好彼此靠近,以实现可接受的成本和延迟。根据经验,同一集群中的机架距离网络核心最多应为 30 米。与昂贵的单模光收发器相比,短距离可实现更低成本的多模光收发器,单模光收发器通常可以达到数公里的距离。Nvidia 通常使用特定的多模光收发器将 GPU 连接到叶子交换机(leaf switches),其短距离可达 50m。使用更长的光缆和更长距离的收发器来容纳更远的 GPU 机架会增加成本,因为需要更昂贵的收发器。未来利用其他扩展网络技术的 GPU 集群也将需要非常短的电缆才能正常工作。例。


华体会登录