2024年9月20日

DGX云服务将提供其高性能人工智能硬件,包括目前供不应求的H100和A100 GPU。用户可以通过英伟达自己的云基础设施或甲骨文的云服务租用这些系统。英伟达DGX平台高级总监Tony Paikeday表示:“DGX云在全球范围内都可用,但受美国出口管制的地方除外。”

该云将在英伟达的云基础设施中提供,包括其位于美国和英国的DGX系统。DGX云也将通过Oracle云基础设施提供。在3月份的GTC会议上首次宣布DGX云服务后,该服务广泛可用。在本次宣布这一新消息之前,上周发布了一系列人工智能云公告。

竞争对手Cerebras Systems正在中东云提供商G42运营的云服务中安装人工智能系统,该系统将提供36 EB的性能。特斯拉宣布将开始生产Dojo超级计算机,该计算机将在其自产D1芯片上运行,并在明年年底前实现100 EB的性能。基准因数据类型而异。

特斯拉首席执行官埃隆·马斯克上周谈到了其现有人工智能硬件中英伟达GPU短缺,特斯拉正在等待供应。用户可以在DGX Cloud上锁定对英伟达硬件和软件的访问,但需要支付高昂的费用。

DGX云租赁包括访问英伟达的云计算机,每台计算机都有H100或A100 GPU和640GB GPU内存,公司可以在这些硬件上运行人工智能应用程序。英伟达的目标是像工厂一样运行其人工智能基础设施——将数据作为原材料输入,输出的是公司可以投入使用的可用信息。客户不必担心在中间的软件和硬件。

Paikeday还提到,“DGX云满足了一个关键需求:用于大型复杂生成式人工智能模型(如大型语言模型)的多节点训练的专用计算。”Paikeday继续说,“企业还将获得丰富的技术专业知识,以部署和操作支持此类工作负载的环境。”

这个费用大约是微软Azure的ND96asr实例的两倍,ND96asr具有8个英伟达A100 GPU、96个CPU内核和900GB内存,每月成本为19854美元。英伟达的基本价格包括AI Enterprise软件,该软件提供访问大型语言模型和开发AI应用程序的工具。租赁包括一个名为Base Command Platform的软件界面,以便公司管理和监控DGX Cloud培训工作负载。

Paikeday表示:“我们预计DGX Cloud将吸引新的人工智能客户和工作负载到我们合作伙伴的云上。”

英伟达正试图让客户使用其基于CUDA编程模型的专有人工智能硬件和软件技术。从长远来看,这可能会给公司带来高昂的成本,因为他们将为软件许可证和GPU时间付费。英伟达表示,长期运营使公司受益,得以体现对人工智能的投资价值。

人工智能社区正在推动开源模型,并谴责专有模型和工具,但英伟达对人工智能硬件市场有着控制权。英伟达是为数不多的能够提供硬件、软件堆栈和服务的公司之一,这些堆栈和服务使机器学习的实际实现成为可能。

发表评论

邮箱地址不会被公开。 必填项已用*标注