2024年9月20日

不过很久没有写深度帖子的原因,应该大部分人都清楚,这是因为当下的市场,没有那么大的持续性的逻辑和行情。很难像以前一样找到一个大板块大方向,有很好的产业基础和产业趋势,写一个帖子出来足以让诸多逻辑驱动的机构等大资金一起共振。

在经过与诸多产业公司和产业专家的深入沟通,查阅相当多的资料之后,还是有一些心得分享给大家的,主要结论如下:

3、未来胜出的以及股价最后能走出来的将是具备拿卡能力,拥有稳定客户,且在运维上拥有独特竞争力的公司。

去年底今年初,以ChatGPT为代表的语言大模型应用惊艳世界,人工智能商业化落地预期不断抬高,全世界范围内涌现了一大批大模型创业公司,全球对于大模型科研的热情持续高涨,随之而来的大模型训练、微调、推理需求急剧增加,催生了大量AI算力需求。

现阶段AI应用的开发如火如荼,需求主要为能够满足训练模型要求的算力;当AI应用落地潮到来后,对于推理侧算力的需求将更为旺盛。

以训练算力为例,根据英伟达和斯坦福大学合作的论文,GPT-3假设使用1024张A100(约600P)进行训练,端到端训练时间大约需要34天。

以GPT-3到GPT-4的迭代为例,参数规模增大10倍,对应训练计算量增加至少60倍。根据媒体SemiAnalysis报道称GPT-4参数量为1.8万亿,且采用更大的训练集,GPT-4训练过程中A100卡数量达到万张量级。

上面第一小点大致解释了为何AI算力需求如此旺盛,但有个问题是这些需求为什么没有完全被云计算厂商承接住?

由于模型训练时要求大量GPU对同一个模型进行同时计算,但除了总峰值运算能力外,GPU间的连接方式同样直接影响了总体GPU的利用率。

传统的GPU集群在节点(单个服务器)内部可以使用大带宽机内连接,而在服务器之间仍然使用传统架构,故无法进行高效的多节点并行训练。

而高性能集群大量在节点间使用大带宽光模块进行互联,能够极大的提升多节点训练时的GPU利用率。对于生产AI应用的客户,高性能集群的设计建设直接关系到对于客户能够提供多少的有效算力。Nvidia同样关注这个市场,发布了自己的集群Nvidia DGX GH200。

简单来说,大模型训练需要的是具备高速互联基础的高性能GPU集群,传统的单个的计算是解决不了这些问题的。

传统云计算厂商提供的服务为可伸缩的单节点,关注点为节点的可用性与可靠性,并无节点间超高带宽互联的基础设施,正如前文所说,无法满足大模型训练客户的需求。

综上,云计算厂商在高性能集群的业务开展上并无优势,所以算力新时代爆发的时候,云计算厂商承接不住这么大的井喷需求,不然就没有其他算力租赁公司什么事了。

倘若只比较服务器采购成本与租金成本,算力租赁并不具备明显优势,但考虑到对算力的弹性需求,硬件采购、调试、维护成本,工程师研发时间成本,自建算力中心的模式对除了一部分算力资源复用率较高的互联网大厂外均不合适,算力租赁成为大多数大模型研发厂商的最佳选择。

因为从推理侧来看,需求则更为旺盛。前面提到GPT-3大约需要1024张A100训练34天,而根据西部证券测算,ChatGPT的推理大约需要7000张A100算力卡持续运行来支持。

根据IDC数据显示,受AI影响,从2022年到2026年,中国区人工智能算力规模年复合增长率将达到52.3%。

燧原科技产品市场总经理高平表示:“往年,算力的年化增长率为20%至30%;今年,保守估计增速在50%以上,呈现井喷的状态。”

华为数字能源中国区副总裁胡春池称:“我们未来要真正掌握和占据数字经济的高地,中国人工智能的发展还有很长的路要走。站在未来十年来看,至少我们的算力需求的增长应该是在百倍以上。”

之后主要需要采购浪潮、新华三等厂家的AI服务器(又称节点,内含8张英伟达算力卡),采购高性能网络模块,建设机房(自有或租赁),做好电源等配套,做好硬件维护,运行好软硬件调度,再将集群提供的真实算力出租给有大模型训练需求客户。

1. 这里所指的算力卡特指支持高速互联基础的数据中心用卡(如H100、H800),不包含4090、3090等滥竽充数的卡,4090这些基本上只能租给视频渲染用户或者小型科研用户。如果一家公司只说自己有多少P算力而没有说明卡的类型,需要研究清楚。

2. 带GPU服务器的整租和高性能GPU集群出租具有本质区别,GPU服务器整租仅为多个单节点的整体出租,由于大多数普通集群节点间没有高速连接,客户无法将多个单节点组成集群进行训练。从商业模式的角度来说,服务器节点出租后使用权属于客户,客户如何使用、亦或闲置与出租方无关,与传统的IDC并无区别。

3. 具备算力调度平台的高性能GPU集群除了能提供极大的高于普通集群的吞吐量(算力使用率),还可以实现算力资源智能管理,通过合理的峰谷算力调度,可以通过多个客户间的共享实现大于100%的真实算力使用率,即“超售”。

超售对于利润提升有极大帮助,根据东吴9月测算微软A800服务器毛利约为42%,净利率约为20%,假设一家公司能通过提高算力资源利用率超售10%,将直接使净利率提升50%达到30%,这也是为什么云计算厂商能逐渐取代传统IDC厂商。

也就是说具备算力调度平台的高性能GPU集群厂商和服务器整租/托管厂商之间,在未来是逐渐取代和逐渐被取代的关系。

美国新一波封锁后拿卡更加困难,拥有拿卡渠道的公司拥有巨大优势。现在市场上谣言满天飞,经常出来哪个公司说只有他能拿到卡,其他人都拿不到。

在10月之前一套8卡H800服务器大概需要200万人民币,每1000P算力(按H800具备2P算力计算)光服务器就需要1.25亿,英伟达出口限制之后服务器价格涨幅可达50%。

算力租赁需要投入大量一次性成本,这是一次性资本开支哦,所以只有现金充裕及融资能力强的公司才能搞定这些。

那些说买了卡和服务器就能大干特干的都是吹的,尤其是超大规模的。难道卡买到了,服务器买到了,不需要机房和地方的吗?不需要配套的吗?建设周期哪里有那么快。。。

自有布局,自有高散热能力、高功率电源的机房,或者拥有良好的网络资源的公司拥有这个的绝对优势。

训练算力的租赁对象主要是大模型公司等,国内的大模型公司主要就是那几个大厂,如果都搞不定这几个大厂的话,那训练算力买来租给谁还都不清楚。

类比光伏电站,前期行业兴起的时候,投资回报率高,IRR可达10%以上,催生了一批光伏电站运营公司。

到后期组件价格升高,光伏上网电价补贴下调,行业IRR一度降低至5%以下,一些运营能力差的公司就开始亏钱了,行业逐渐出清,留下的都是路线选择正确,运营能力优秀,能做好整个产业链的公司,能够有整体解决方案的公司。

要想在算力租赁行业活下来活得好,光靠现在的吹拿卡是远远不行的,除了拿卡,还需要有大量的资金、客户、基础设施等支持,还要有具备强大的运维能力,还要有高技术壁垒的算力调度平台的公司。

通过以上分析,本文已经阐明了为何会语言大模型的进化会催生出一个新的行业,算力租赁公司的核心在于拿卡能力、资金实力、自有布局、客源、运营能力、调度平台、专注GPU集群等等。

接下来还有更大的催化就是人工智能应用的落地,近期,OpenAI 发 布 GPT-4V、谷歌发布 RT-X、Meta 发布 AnyMAL,标志着多模态大模型进入加速迭代阶段,同时大模型监管政策不断完善,全面商用化的时点渐行渐近,大模型推理需求爆发的时间点越来越近,接下来一定要重视能做好推理侧算力租赁商业模式的公司。

假如一家公司像矿场一样找个电费便宜又好散热的偏僻地方建厂,那他的商业模式将只支持大模型训练,因为大模型推理(应用),需要良好的网络资源,需要低延迟和大带宽,将推理内容高效分发给客户。

而上游能拿到卡,自身有现成的大型基础设施,还有强大的运维能力,下游又能搞定诸多大厂客户的公司,将整合好全产业链,拥有整体解决方案,将从整个产业链脱颖而出。

估计每个人自己都有自己的答案,同样,我也有,不过我能看得上眼的起码账上现金要有这么多的吧。。。

【郑重声明】本文所有内容均不构成任何投资建议。本文仅是个人随心笔记及个人看法,不具有任何指导作用,亦不代表笔者所在机构观点,不具有任何指导作用。据此操作,风险自负。

烧烤哥,我感觉光环新网很符合您这个要求上游能拿到卡:国外的目前算力中心部署了英伟达A800八卡模组服务器、H800八卡模组服务器、同时配备AMD模组服务器。国内的和摩尔线程、华为、沐曦战略合作,不愁国内卡源。自身有现成的大型基础设施:110000个自建柜。。超高上架率。还有强大的运维能力:业内领先。下游又能搞定诸多大厂客户的公司:华为百度腾讯字节金融业巨头全都有。。。现金:今年3季度账上现金41.48亿。就是不知道如果要算P,这得是多少P$光环新网(SZ300383)$

手机环比还是下降的。。复苏的只是华为分额,吃了其他手机厂商分额。汽车这个代替油车。。算力这个是入门券。。。

玩大A,非老百姓日用品不能太当真。算力是产业链条的中间层服务,目前AI能不能成为一个产业都有疑问,更不要说市场规模了。英伟达新产品迭代更新,意味着后发企业总是更具优势,不像是门好生意。跟手机,汽车没有可比较的基础。

太长时间没有写深度帖子了,以至于很多粉丝都以为烧烤哥是不是换人了。。。不过很久没有写深度帖子的原因,应该大部分人都清楚,这是因为当下的市场,没有那么大的持续性的逻辑和行情。很难像以前一样找到一个大板块大方向,有很好的产业基础和产业趋势,写一个帖子出来足以让诸多逻辑驱动的…

发表评论

邮箱地址不会被公开。 必填项已用*标注