2024年9月20日

目前,随着深度学习、高性能计算、大模型训练等技术的保驾护航,通用人工智能时代即将到来。而就在这几天!RTX 3090和RTX 4090涡轮版价格飞速上涨,并且还有持续上涨的趋势,这是什么原因导致这种情况出现的呢,大家有没有想过?那我现在从以下几个角度和大家分析分析!

4090显卡不同于30系的安培架构,而是采用新的Ada架构,而新的架构也为显卡带了更强的性能表现。A100是采用Ampere架构,GPU增加了许多新特性,而在HPC,AI和数据分析领域都有更好的表现。

H100是采用了全新的Hopper架构,拥有NVIDIA当前最强的GPU规格,在数字运算部分布置了144组CUDA上,并且最高拥有FP64 9216个CUDA核心。

大家都知道A100/H100在深度学习上的作用,基本上都是吊打各大在深度学习上的显卡,并且在数据分析领域也是独挡一面的存在,但A100/H100因为国外禁止对国内出口的问题,现在很少有卖的了,有卖的也是走私的,没有任何保证。那基于A100/H100这样强大的算力之下,我们接下来看看4090涡轮版的测评数据!

在测试平台上可以看出除了A100/H100系列以外,在FP32和FP16的相对训练吞吐量4090涡轮版遥遥领先,而在大模型的训练用 4090 是不行的,但推理(inference/serving)用 4090 不仅可行,在性价比上还能跟 H100 打个平手。事实上,H100/A100 和 4090 最大的区别就在通信和内存上,算力差距不大。

如果在对双精度没有太大的追求的情况下,其实4090涡轮版已经足够用在深度学习、大模型推理上面了,但是为了保证更稳定更可靠的数据,我们还对以下进行了系统的测试!

而RTX 4090具有760亿个晶体管、16384个CUDA核心和24GB 高速美光GDDR6X显存,4090单精度浮点73TFLOPs,3090搭载了 10496个流处理器与24G GDDR6X显存,带宽为936GB/S。3090单精度浮点35.7TFLOPs。所以在性能方面4090涡轮版吊打3090,并且价格也没有贵多少,在深度学习的领域中,4090涡轮版支持多卡,可以为深度学习提供更快的性能和更多的算力!

在A100/H100这款计算卡被禁止出售给我国的时候,NVIDIA为了不流失中国市场,就推出了A800/H800,处了显存带宽被削弱以外,H800的双精度被砍了,但在深度学习的领域上作用还是非常大的,因为A800的价格比H800便宜很多,也出现了一个致命的问题,就是大量的消耗,不断的涨价和延长交付。周而复始大家对显卡的需求越来越强烈,可显卡的数量有限,价格太高,中小型企业很难支撑起来,大家就去寻找可以做深度训练和有性价比的显卡,而3090产品生命周期已经过了,市场上货很少价格还高,所以 4090涡轮版进入了大家的视野中!

而4090涡轮版不仅性能强悍,可以满足深度学习训练和推理,而且还支持多卡,使得在性能方面有了进一步的提升。并且多卡的4090涡轮版价格优惠,很多中小型企业可以支撑的住,比如:8卡4090涡轮版与A800整机价格相差近10倍,与H800整机相差近16倍,算力也大幅度提升与H800的算力只相差了6倍。而且还有一个常识性的错误就是很多人不知道4090也带ECC纠错,推理能力还比A800强一点。而且在70B模型的参数为140GB的时候,而4090,140 GB 参数 + 40 GB KV Cache = 180 GB,每张卡 24 GB,8 张卡刚好可以放下,而现在A800/H800虽然是A100/H100的阉割版但是价格昂贵并且难拿到货。

面对A800/H800高高在上的价格与供货周期,4090涡轮版无疑是最好的选择,但随着越来越多的人的需求扩大,4090涡轮版也被市面上大量的扫货,供不应求,并且价格飞速上涨,大家都认为4090涡轮版多卡整机对深度学习等一些领域更加的具有性价比,都纷纷选择购入4090涡轮版。

随着科技浪潮的发展速度,想要有更先进的技术,显卡的配置是不可少的,而4090涡轮版无疑是一个性价比最高的一个选择,有强大的性能和算力做支撑。深圳昊源诺信一直有4090单涡轮版整机方案与设备,如有需要和问题可以联系我们咨询讨论!

发表评论

邮箱地址不会被公开。 必填项已用*标注