云提供商正在组建GPU大军,以提供更多的人工智能“火力”。在刚刚举行的谷歌I/O开发者年度大会上,谷歌宣布了一款拥有26000 GPU的人工智能超级计算机。计算引擎A3超级计算机再次证明,在与微软争夺人工智能霸主地位的战斗中,谷歌正在投入更多资源进行积极的反攻。
(资料图片)
这台超级计算机拥有大约26000个英伟达H100 Hopper GPU。作为参考,世界上速度最快的超级计算机Frontier拥有37000个AMD Instinct 250X GPU。
4月,英伟达首席执行官黄仁勋(Jensen Huang)展示了带有8个H100 Hopper GPU的英伟达DGX H100系统底板。
谷歌发言人在一封电子邮件中表示:“对于我们最大的客户,我们可以在一个集群中建造多达26000个GPU的A3超级计算机,并正在努力在我们最大的地区建造多个集群。”并补充道,“并不是我们所有节点都会扩大到这么大的规模。”
该系统是在加利福尼亚州山景城举行的谷歌I/O开发者大会上宣布的。开发者大会已经成为谷歌许多人工智能软件和硬件能力的展示。在微软将OpenAI技术应用于必应搜索和办公软件应用程序后,谷歌加快了人工智能的发展。
这台超级计算机的目标客户是希望训练大型语言模型(LLM)的客户。许多云提供商现在正在部署H100 GPU,英伟达在3月份推出了自己的DGX云服务,与租用上一代A100 GPU相比,这项服务非常昂贵。
谷歌表示,A3超级计算机是对使用英伟达A100 GPU的现有A2虚拟机提供的计算资源的重大升级。谷歌正在将所有分布在各地的A3计算实例集中到一台超级计算机中。
谷歌董事Roy Kim和产品经理Chris Kleban在一篇博客文章中表示:“A3超级计算机的规模提供了高达26 exaflops的人工智能性能,这大大提高了训练大型机器学习模型的时间和成本。”exaflops性能指标被用来估计人工智能计算机的基准性能。
GPU的数量已成为云提供商推广其人工智能计算服务的重要名片和指标。微软在Azure中的人工智能超级计算机与OpenAI合作构建,拥有28.5万个CPU核心和1万个GPU。微软还宣布了其下一代人工智能超级计算机,该计算机拥有更多的GPU。Oracle的云服务提供了对512个GPU集群的访问,并正在开发新技术来提高GPU间的通信速度。
谷歌一直在炒作其TPU v4人工智能芯片,这些芯片正被用来运行LLM的内部人工智能应用程序,例如谷歌的Bard产品。谷歌的人工智能子公司DeepMind表示,快速TPU(张量处理器)正在指导通用和科学应用的人工智能开发。
相比之下,谷歌的A3超级计算机用途广泛,可以适应各种人工智能应用和LLM。Kim和Kleban在博客文章中表示:“鉴于这些工作负载的高需求,一刀切的方法是不够的——你需要专门为人工智能构建的基础设施。”
尽管谷歌非常喜欢其TPU,但鉴于客户正在用CUDA编写人工智能应用程序,英伟达的GPU已成为云提供商的必需品。CUDA是英伟达专有的并行编程模型,该软件工具包基于H100专业的人工智能和图形核心提供的加速度生成最快的结果。
客户可以通过A3虚拟机运行人工智能应用程序,并通过Vertex AI、谷歌Kubernetes引擎和谷歌计算引擎服务使用谷歌的人工智能开发和管理服务。
谷歌的A3超级计算机融合了各种技术,以提高GPU到GPU的通信和网络性能。A3虚拟机基于英特尔第四代至强(Xeon)芯片(代号Sapphire Rapids),该芯片与H100 GPU一起封装。目前尚不清楚虚拟机中的虚拟CPU是否会支持Sapphire Rapids芯片中内置的推理加速器。虚拟机配有DDR5内存。
在英伟达H100上的训练模型比其上一代A100 GPU更快、更便宜,后者已在云中广泛可用。人工智能服务公司MosaicML的一项研究发现,H100在其70亿参数的MosaicGPT大型语言模型上“比NVIDIA A100高30%的成本效益和3倍的速度”。
H100也可以推理,但考虑到H100提供的处理能力,可能会被认为是过度使用。谷歌云提供英伟达的L4 GPU用于推理,英特尔在其Sapphire Rapids CPU中也有推理加速器。
谷歌的Kim和Kleban表示:“A3虚拟机也非常适合推理工作负载,与A2虚拟机的A100 GPU相比,推理性能提高了30倍。”
A3虚拟机是第一个通过名为Mount Evans的基础设施处理单元(IPU)连接GPU实例的虚拟机。IPU由谷歌和英特尔联合开发,其允许A3虚拟机减轻传统上在虚拟CPU上完成的网络、存储管理和安全功能的工作负荷。IPU允许以200Gbps的速度进行数据传输。
谷歌高管在一篇博客文章中表示:“A3是第一个使用我们定制设计的200Gbps IPU的GPU实例,GPU到GPU的数据传输绕过CPU主机,通过与其他虚拟机网络和数据流量分离的接口传输。与A2虚拟机相比,这使网络带宽增加了10倍,具有低延迟和高带宽稳定性。”
IPU的吞吐量可能很快就会受到微软的挑战,微软即将推出的搭载英伟达H100 GPU的人工智能超级计算机将具有芯片制造商Quantum-2 400Gbps的网络能力。微软尚未透露其下一代人工智能超级计算机中H100 GPU的数量。
A3超级计算机建立在该公司Jupiter数据中心网络结构的主干上,该网络结构通过光纤连接地理位置不同的GPU集群。
关键词: