2024年9月20日

1849 年,美国加州发现金矿的消息传开后,淘金热开始了。无数人涌入这片新土地,他们有的来自东海岸,有的来自欧洲,还有来到美国的第一代华人移民,他们刚开始把这个地方称为「金山」,后来又称为「旧金山」。

但不管如何,来到这片新土地的淘金者都需要衣食住行,当然最关键的还是淘金的装备——铲子。正所谓「工欲善其事,必先利其器」,为了更高效地淘金,人们开始疯狂地涌向卖铲人,连带着财富。

一百多年后,旧金山往南不远,两家硅谷公司掀起了新的淘金热:OpenAI 第一个发现了 AI 时代的「金矿」,英伟达则成为了第一批「卖铲人」。和过去一样,无数人和公司开始涌入这片新的热土,拿起新时代的「铲子」开始淘金。

不同的是,过去的铲子几乎不存在什么技术门槛,但今天英伟达的 GPU 却是所有人的选择。今年以来,仅字节跳动一家就向英伟达订购了超过 10 亿美元的 GPU,包括 10 万块 A100 和 H800 加速卡。百度、谷歌、特斯拉、亚马逊、微软……这些大公司今年至少都向英伟达订购了上万块 GPU。

但这依然不够。旷视科技 CEO 印奇 3 月底在接受财新采访的时候表示,中国只有大约 4 万块 A100 可用于大模型训练。随着 AI 热潮的持续,英伟达上一代高端 GPU A100 的阉割版——A800 在国内一度也涨到了 10 万元一块。

就算从今年 1 月 ChatGPT 的新一轮爆发算起,AI 算力的短缺也持续了近半年,这些大公司为什么还缺 GPU 和算力?

借用一句广告语:不是所有 GPU 都是英伟达。GPU 的短缺,实质是英伟达高端 GPU 的短缺。对 AI 大模型训练而言,要么选择英伟达 A100、H100 GPU,要么也是去年禁令后英伟达专门推出的减配版 A800、H800。

AI 的使用包括了训练和推理两个环节,前者可以理解为造出模型,后者可以理解为使用模型。而 AI 大模型的预训练和微调,尤其是预训练环节需要消耗大量的算力,特别看重单块 GPU 提供的性能和多卡间数据传输能力。但在今天能够提供大模型预训练计算效率的 AI 芯片(广义的 AI 芯片仅指面向 AI 使用的芯片):

大模型很重要的一个特征是至少千亿级别的参数,背后需要巨量的算力用来训练,多个 GPU 之间的数据传输、同步都会导致部分 GPU 算力闲置,所以单个 GPU 性能越高,数量越少,GPU 的利用效率就高,相应的成本则越低。

而英伟达 2020 年以来发布的 A100 、H100,一方面拥有单卡的高算力,另一方面又有高带宽的优势。A100 的 FP32 算力达到 19.5 TFLOPS(每秒万亿次浮点运算),H100 更是高达 134 TFLOPS。

面向中国市场定制的 A800 和 H800,算力几乎不变,主要是为了避开管制标准,带宽分别削减了四分之一和一半左右。按照彭博社的说法,同样的 AI 任务,H800 要花比 H100 多 10% -30% 的时间。

但即便如此,A800 和 H800 的计算效率依然超过其他 GPU 和 AI 芯片。这也是为什么在 AI 推理市场会出现「百花齐放」的想象,包括各大云计算公司自研的 AI 芯片和其他 GPU 公司都能占据一定的份额,到了对性能要求更高的 AI 训练市场却只有英伟达「一家独大」。

当然,在「一家独大」的背后,软件生态也是英伟达最核心的技术护城河。这方面有很多文章都有提及,但简而言之,最重要的是英伟达从 2007 推出并坚持的 CUDA 统一计算平台,时至今日已经成为了 AI 世界的基础设施,绝大部分 AI 开发者都是以 CUDA 为基础进行开发,就如同 Android、iOS 之于移动应用开发者。

不过照理说,英伟达也明白自己的高端 GPU 非常抢手,春节后就有不少消息指出,英伟达正在追加晶圆代工订单,满足全球市场的旺盛需求,这几个月时间理应能够大幅提高代工产能,毕竟又不是台积电最先进的 3nm 工艺。

对于英伟达的成功原因,黄仁勋曾这样总结:“我们很早地,大约在10年前就发现,(AI)这种制作软件的方式可以改变一切。我们从底层一直到顶层,从各个角度改变了公司。”

从2016年开始,英伟达旗下的加速计算GPU产品线(代号“Tesla”)开始专门针对AI训练任务进行设计。这一年推出的芯片型号为P100,同时配备有英伟达新研发的高速互联技术“NVLink”。而NVLink能够允许CPU、GPU芯片间进行高速交互,进一步提升了运算效率。

从底层到顶层搭建起的软硬件产品生态,也是英伟达在这轮AI风口,因其长期布局和最大的确定性,得以受到资本热捧的原因。但从市场、技术等角度考虑,英伟达当下构建的“算力帝国”也还远远谈不上固若金汤。

根据2023财年财报显示,中国是英伟达的第一大目标市场,英伟达在中国市场实现的营收占其全球市场营收的47%。而在政策限制下,英伟达难以向中国市场销售A100、H100高端芯片,无疑将对其营收造成重击。

黄仁勋个人,从不掩饰对于中国市场的期望。5月底他在接受《金融时报》采访时,抱怨美国政府对于半导体技术的出口限制使得英伟达束手束脚,警告持续升级的中美芯片战将令美国科技业面临遭受“巨大损害”的风险。“如果失去了中国市场,我们并没有应急计划。因为世界上没有其他中国,中国只有一个。”

但在英伟达高端显卡出口受阻的态势下,许多中国客户不得不转向其他选择。而细细数来,市场中英伟达的挑战者并不少。

王非告诉「市界」:“我一些做AIGC项目的客户选择了海光的国产显卡DCU Z100L。据我所知,海光的产品目前已经用到了多个国产大模型里。”

另一位大模型应用层的创业者则透露,由于买不到A800,其所在的团队紧急购置了一批英伟达的消费级显卡GeForce RTX 4090,“未来会考虑其他选择,或者更多配置云计算资源”。

6月10日,天数智芯对外宣布,经过验证,其研发的国内首款量产的通用GPU“天垓100”具备支持百亿级参数大模型训练的能力。据称,在天垓100加速卡的算力集群支持下,北京智源研究院70亿参数的“Aquila”语言基础模型完成了参数优化工作。6月上旬,摩尔线程则宣布其已经完成对智源研究院“悟道·天鹰”大模型的推理兼容适配,整个适配过程仅花费不到6小时时间。

除了国产GPU玩家,“AI芯片第一股”寒武纪、阿里巴巴旗下芯片企业“平头哥”的产品同样可以用于运行AI相关任务。

6月19日,“国产CPU第一股”龙芯中科在投资者交流平台公开表示,其已完成通用GPU相关IP设计,预计第一个集成自研通用GPU核心的SOC芯片(系统级芯片)计划于2024年Q1流片,在此基础上将研制兼顾显卡和计算加速卡功能的通用GPU芯片,计划于2024年下半年流片。

服务器厂商南京坤前计算机的一位客户经理总结道,在AIGC等大模型应用领域中,国产产品已经可以部分满足客户需求。他讲道:“不仅是现在,在未来的一段时间内英伟达GPU供不应求也是可预见的,但我认为不必过于追求英伟达。只要算力集群足够大,国产卡也够用,就算国产卡带宽少一点,运算的时间多一点,起码可以实现自主。”

此外,从6月上旬开始,市场便不断传出知名资管机构与大股东对英伟达的减持计划。实际上,英伟达“算力帝国”的缝隙也已经开始显现。

近日,中国科学院半导体研究所集成光电子学国家重点实验室微波光电子课题组李明研究员祝宁华院士团队研制出一款超高集成度光学卷积处理器。

而且一些投研机构认为,中科院这项技术的突破在AI领域具有广阔的前景,比如以 Lightmatter 和 Lightelligence 为代表的公司,推出了新型的硅光计算芯片,性能远超目前的 AI 算力芯片。据 Lightmatter 的数据,他们推出的 Envise 芯片的运行速度比英伟达的A100 芯片快1.5 到10倍。

光计算是一种利用光波作为载体进行信息处理的技术,具有大带宽、低延时、低功耗等优点,提供了一种“传输即计算,结构即功能”的计算架构,有望避免冯·诺依曼计算范式中存在的数据潮汐传输问题。

现在全球已经越来越重视光计算的研发,而且取得了很多成果,比如Lightmatter所推出的 Envise 芯片的运行速度比英伟达的A100 芯片快1.5到10倍。

如果未来这种光处理芯片能够实现量产并大范围应用,那很有可能对人工智能行业带来很大的影响,行业甚至有可能重新迎来洗牌。大家都知道人工智能非常重要,随着AI技术的不断进步,未来全球的经济格局,产业格局都有可能迎来重新洗牌。

根中国科学技术信息研究所发布的《2021全球人工智能创新指数》报告,中国和美国AI指数处于全球第一梯队,AI指数都达到50以上。不过从整体来说,目前中国在人工智能领域跟美国仍然有一定的差距,这种差距不仅体现在数量以及质量上面,更关键的是在AI芯片上面的差距更是比较大。目前全球最顶尖的AI芯片都是被美国的英伟达给垄断了。

而且受到美国的限制,目前英伟达最先进的A100和H100并不能向中国出口,他们只能选择降级,目前出口到中国的主要以A800和H800为主。

即便出口到中国的GPU性能有所缩水,但仍然受到国内头部互联网厂家的追捧,毕竟即便缩水了,它性能仍然是处于全球前列的。

所以看到中科院实现光计算处理器技术突破之后,大家都充满期待,大家都希望这种光处理器能够迅速量产,到时我们就能够迅速缩小跟美国的AI芯片的差距,在人工智能领域继续保持全球前列的位置。

发表评论

邮箱地址不会被公开。 必填项已用*标注