2024年9月20日

英伟达(Nvidia)将液冷技术引入其主流服务器GPU组合,液冷技术通常与高性能计算系统的GPU一起使用。英伟达在台北举行的Computex展上发布了这款液冷GPU。

该公司将于今年晚些时候开始销售基于Ampere架构服务器用A100 PCIe液冷GPU。基于新Hopper架构的液冷GPU将于明年年初上市。

新的A100 PCIe GPU具有与传统风冷A100 PCIe版本相同的硬件,但它包含直接到芯片的液体冷却系统。该GPU只有一个PCIe插槽,宽度是风冷版本的一半,而风冷版本需要一个双插槽。

与风冷版本一样,新的液冷版本也有80GB的GPU内存,内存带宽为每秒2TB, TDP为350w。它提供了9.7 teraflops(万亿次浮点运算)的双精度浮点运算性能,以及19.5teraflops的单精度浮点运算性能(与人工智能计算更相关)。

Nvidia加速计算产品管理高级主管Paresh Kharya在一次新闻发布会上说:“数据中心大约40%的能源用于冷却,而该行业节能冷却的一个方向是液体。”

数据中心消耗了全球1%的电力,能源效率是该公司在推出产品时考虑的一个重要因素。对于需要加速的人工智能等工作负载,GPU比CPU更节能。主流企业数据中心也在考虑在数据中心基础设施中使用液体冷却。

但是GPU仍然需要消耗大量的能量,Nvidia并没有关注芯片级别的能量效率,而是将液冷技术放在了GPU的顶部。据悉从风冷A100 PCIe配置切换到液冷A100 PCIe配置可以减少高达66%的机架空间和将近30%的能耗。

机架空间的节省是由于不需要额外的散热器,并且液冷A100只需要一个PCIe插槽,而风冷GPU需要两个插槽。在机架级装载更多GPU的能力,以及更好的冷却机制,有助于服务器运行更多工作负载,实现更持久的输出。

HGX A100采用A100 SXM的液冷机型,已经从Nvidia合作伙伴那里投入生产一段时间了。新发布的A100 PCIe液冷GPU现在正在测试,合作伙伴将在今年晚些时候提供合格的主流服务器。

芯片制造商Nvidia主要以其图形处理器(GPU)而闻名,现在将自己定位为包括硬件、软件和服务在内的人工智能产品的一站式供应商。该公司针对汽车、制造、医疗保健、安全和机器人等垂直领域提供软件套件和编程框架。

另一方面,Nvidia正在提供其所谓的“人工智能工厂”,在那里,它的超级计算机可以解决人工智能问题,并为企业提供定制AI产品。

发表评论

邮箱地址不会被公开。 必填项已用*标注