2024年9月20日

目前国内的AI生态当中,巨头们早已布局,尤其是以华为为代表的硬件厂商,正不遗余力地建设算力生态。

其中,昇腾系列是华为的AI算力核心之一,华为的野心是要做算力世界的“第三极”。近年来昇腾也一路猛追,逐步扩大规模,并加强了和开源社区的合作。

10月18日,PyTorch基金会正式宣布华为作为Premier会员加入,这也是中国首个、全球第十个PyTorch基金会最高级别会员。

华为昇腾计算业务总裁张迪煊表示:“这对华为和PyTorch生态系统是互惠互利的,也符合我们长期以来开放创新,协作共赢的开源理念。”

大众可能对PyTorch的名称有些陌生,但是在人工智能领域,PyTorch如雷贯耳。它是全球最知名的AI框架之一,由Meta推出,在2016年就已经开源。AI框架堪称人工智能的操作系统,其关键地位可想而知。

PyTorch之外,谷歌推出了TensorFlow,在2015年开源;华为也推出了昇思MindSpore,在2020年开源。可以看到,在AI框架领域竞争也颇为激烈。而开源基金会就是汇聚顶尖的极客人才,共同建设某个开源生态系统,技术型企业往往是核心的贡献者。比如,华为之外,英特尔也已经以高级成员的身份加入PyTorch基金会,都将加速PyTorch社区发展。

成为Premier会员则意味着,企业对于开源社区的贡献颇大,华为成为PyTorch基金会的最高级别会员,也体现其在PyTorch上的投入非常大。

首先,华为在昇腾发展路径的思路上有所转变。一位华为内部人士分析道:“背后其实是像鲲鹏(华为的服务器CPU)路线,鲲鹏崛起,是和社区一起共建生态,复用社区现有系统,对客户迁移成本低,所以现在鲲鹏卖得好。昇腾之前都是想走英伟达路线,都自己干,但难度高,客户迁移难度大,用PyTorch,很多客户之前就是在PyTorch上构建业务,这样业务迁移简单。”

英伟达在CUDA平台标准下,打造的软硬件体系一骑绝尘,英特尔、AMD、华为等都想争夺市场,在AI算力上分一杯羹。眼下,在生成式AI需求猛增、算力紧缺、国外芯片禁售的情况下,也给了昇腾等国内企业新的机遇点,当然供应链的困难依然需要解决。而想要在短期内大规模拓展,同时和多个更加成熟的开源社区共建生态,或许是更合适的方式,这会大大降低客户的使用门槛。

多位资深软件人士表示,PyTorch和TensorFlow研发更早,也是使用最广泛的AI框架,目前的一个趋势是使用PyTorch的用户越来越多,一个重要原因是,即使对于初级开发者也非常友好,学习使用的成本低很多。对于昇腾而言,一直兼容多个AI框架,但是目前客户中PyTorch用得更多。

基于更成熟的AI框架,对于昇腾而言,也能够在一个重要维度上更好上量。与此同时,AI大模型训练需求量巨大,华为必然要在这个关键节点乘势而上。

据悉,PyTorch社区发布2.1版本已同步支持昇腾NPU,这意味着开发者可直接在PyTorch 2.1上基于昇腾进行模型开发。具体而言,PyTorch在新版本中发布了更加完善的第三方设备接入机制,该特性由昇腾主导,与PyTorch社区的核心维护者共同完成。基于该特性,三方AI算力设备无需对原有框架代码进行修改就能对接PyTorch框架。

在早前版本中,由于缺少对于昇腾算力设备的原生支持,开发者如果想在主流框架下调用昇腾NPU实现加速,还需要花费数周时间进行模型迁移。现在基于新版本,用户可以在昇腾NPU上直接享受原生PyTorch的开发体验。基于PyTorch,昇腾已经适配了BLOOM、GPT-3、LLaMA等业界主流大模型,深度优化后性能可持平业界。

对于算力客户而言,当前都会寻找多个供应商,国内不少AI企业就已经使用了昇腾,有AI企业此前表示,大家都会去测试国产的AI芯片,但是迁移的时间会很长,可能需要2-3年,甚至更长的时间。而随着昇腾和PyTorch社区等更紧密的合作,AI企业客户开发、迁移的成本将进一步降低。

根据华为此前公布的信息,昇腾迄今已发展1100多家伙伴,目前有25个城市基于昇腾构建人工智能计算中心,其中14个已经上线并饱和运行。目前昇腾已经支持了讯飞等企业的大模型开发,覆盖了国内近半数的大模型。

昇腾所代表的算力底座,则是华为“百模千态”战略的重要组成部分。2023年9月,在华为全联接大会上,华为发布全面智能化(All Intelligence)战略,并多次提到了“使能百模千态,赋能千行万业”的概念。

今年,华为轮值董事长胡厚崑曾表示,当前阶段,华为在人工智能上有两个着力点,其一是构建强有力的算力底座,支撑中国人工智能产业的发展;其二是从通用大模型到行业大模型,让人工智能服务好千行百业,服务好科学研究。

在通用算力CPU上,鲲鹏采用硬件开放+软件开源+输出能力的三重开放的模式铸就其服务器生态;在AI算力NPU上,昇腾对标英伟达,推出了CANN底层异构计算框架,对上既能支持自研MindSpore AI框架,也能支持行业主流Pytorch、Tensorflow等主流开源框架。

鲲鹏:通用计算,以开源构筑生态。鲲鹏在硬件上提供主板,SSD/网卡/RAID卡等部件,使能伙伴发展自有品牌部件、服务器和PC等;在软件上开源操作系统OpenEuler、数据库OpenGauss,使伙伴可以发展自有品牌操作系统产品和数据库产品;在能力上开放采购供应、商业模式、解决方案、人力资源、服务、市场、研发、财务、文化、制造十大能力。同时,通过Devkit、BoostKit等生态开发工具降低软件迁移难度,助力生态成长。结果上看,根据华为在全联接大会公布,目前OpenEuler累计装机套数达245万套,新增市场份额22%;Open Gauss累计装机套数达2.8万套,新增市场份额4.3%;华为预计鲲鹏系整机合作伙伴的出货占比从2020年的50%逐渐成长至2022的95%。

昇腾:AI算力,硬件性能领先,软件对标CUDA。昇腾在硬件上为合作伙伴提供Altas昇腾计算模组和计算卡,发展20+硬件合作伙伴(整机、工控机等),15家一体机伙伴; 在软件上开源昇思MindSpore AI框架,社区开源模型400+,下载量超390万+; 生态发展上,昇腾采用行业+教育的方式,行业打通1000+合作伙伴,认证解决方案2000+,超过110所高校开设昇腾AI课程,有着120万+开发者。 结果上看,目前以昇腾AI芯片为底层算力的智算中心,已有20+城市启动建设,共提供2500P+AI算力。 国内现有城市智算中心中,根据根据各地方政府门户、人民网、36氪等网站公布的数据,以建设数量计,华为占据整体智算中心约79%的市场份额,在国产AI芯片中处于领先地位。

四年前,华为就提出了计算战略,瞄准了人工智能的算力底座,如今随着生成式AI的来临,昇腾算力体系也在加速爆发,华为也欲在新一轮的AI浪潮中占据主导地位。

2019 年的第四届华为全联接大会上,华为首次发布对计算产业的理解与战略,宣布以“一云两翼双引擎”的布局全面进军计算产业。

双引擎:指鲲鹏和昇腾两大基础芯片族,构筑异构计算架构。其中鲲鹏代表通用计算,昇腾代表 AI 加速能力。

两翼:指华为智能计算业务与智能数据与存储业务。1)在智能计算领域,华为面向 端、边、云场景,打造“鲲鹏+昇腾+x86+GPU”的多样性算力,发布全球训练最 快的 AI 训练集群 Atlas 900、AI 推理和训练卡 Atlas 300 和 AI 训练服务器 Atlas 800。2)在智能数据与存储领域,华为融合存储、大数据、数据库、AI 能力,围绕数据 全生命周期给出技术和产品支撑。

一云:指华为云。通过全栈创新,提供安全可靠的混合云服务,成为生态伙伴的黑 土地,为世界提供普惠算力。

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI 计算基础设施、行业应用及服务,包括系列处理器、系列硬件、CANN(Compute Architecture for Neural Networks,异构计算架构)、AI 计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。

昇腾计算的基础软硬件是产业的核心,也是 AI 计算能力的来源。华为作为昇腾计算产业生态的一员,是基础软硬件系统的核心贡献者。

1)昇腾计算的硬件系统:基于华为达芬奇内核的昇腾系列处理器等多样化 AI 算力。基于昇腾处理器的系列硬件产品,如嵌入式模组、板卡、小站、服务器、集群等。

2)昇腾计算的基础软件体系:异构计算架构 CANN 及对应的驱动、运行时、加速库、编译器、调试调优工具、开发工具链 MindStudio 和各种运维管理工具等,开放给广大的开发者和客户。AI 计算框架,包括开源的 MindSpore,以及各种业界流行的框架,作为生态的有机 组成部分。同时,昇腾计算产业秉承开放的生态建设思路,支持各种计算框架对接。围绕昇腾计算体系,诞生了大量优秀应用,如互联网推荐、自然语言处理、视频分 析、图像分类、目标识别、语音识别、机器人等各种场景;昇腾计算产业也拥抱各 种云服务场景,支持 laas,Paas,SaaS 等多种云服务模式;同时,端边云协同的能 力推动昇腾计算成为全场景的 AI 基础设施。

昇腾(HUAWEI Ascend)310是一款高能效、灵活可编程的人工智能处理器,在典型配置下,半精度(FP16)算力达到 16 TFLOPS,整数精度(INT8)算力达到 8 TOPS, 功耗仅为 8W。采用自研华为达芬奇架构,集成丰富的计算单元,提高 AI 计算完备度和效率,进而扩展该芯片的适用性。全 AI 业务流程加速,大幅提高 AI 全系统的性能,有效降低部署成本。

昇腾(HUAWEI Ascend)910是业界算力最强的 AI 处理器,基于自研华为达芬奇架 构 3D Cube 技术,实现业界最佳 AI 性能与能效,架构灵活伸缩,支持云边端全栈全场 景应用。算力方面,昇腾 910 完全达到设计规格,半精度(FP16)算力达到 320 TFLOPS, 整数精度(INT8)算力达到 640 TOPS,功耗 310W。

基于昇腾 910 和 310 AI 处理器,昇腾计算产业在硬件方面坚持“硬件开放”策略,通过自有硬件和合作硬件相结合的方式为客户提供多样化选择。

自有硬件:Atlas 系列硬件产品基于昇腾处理器和业界主流异构计算部件,通过模组、 板卡、小站、服务器、集群等丰富的产品形态,打造面向“云、边、端”的全场景 AI 基础设施方案,包括 Atlas 200 Al 加速模块、Atlas 200 DK AI 开发者套件、Atlas 300 Al 加速卡、Atlas 500 智能小站、Atlas 800 Al 服务器、Atlas 900 Al 集群等产品, 可广泛用于“平安城市、智能交通、智能医疗、智能零售、智能金融”等领域。

合作硬件:华为将 Atlas 系列硬件开放给合作伙伴,让伙伴基于 Atlas 系列硬件进行 集成和二次开发,联合打造有竞争力的产品。比如华为可以提供 Atlas 200 Al 加速 模块,合作伙伴集成后形成机器人、机器狗、输电智能巡检方案等 AI 系统;华为也 可以提供 Atlas 300 AI 加速卡,合作伙伴可以集成后形成 AI 服务器;华为也可以通 过 OEM/ODM 的方式使能伙伴开发自有品牌的服务器整机。

Atlas 200 Al 加速模块(型号:3000):集成了昇腾推理处理器,半张信用卡大小即 可提供 22TOPS INT8 算力,可以在端侧实现人脸识别、图像分类等,广泛用于智能 摄像机、机器人、无人机等端侧 AI 场景。

Atlas 300I 推理卡(型号:3000/3010):基于昇腾推理处理器,单卡算力可达 88 TOPS INT8,目前可支持 80 路高清视频实时分析,是业界水平的 2 倍,可广泛应用于智 慧城市、智慧交通、智慧金融等场景。

Atlas 300T 训练卡(型号:9000):基于昇腾训练处理器,配合服务器,为数据中 心提供强劲算力的训练卡,单卡可提供 320 TFLOPS FP16 算力,加快深度学习训练 进程。具有高计算密度、大内存、高带宽等优点,适用于通用服务器。满足运营商、 互联网、金融等需要 AI 训练以及高性能计算领域的算力需求。

2)智能小站:昇腾计算产业为客户和伙伴提供了基于昇腾推理处理器的智能小站 Atlas 500,具有超强计算性能、体积小、环境适应性强、易于维护和支持云边协同等特点, 可以在边缘环境广泛部署,满足在安防、交通、社区、园区、商场、超市等复杂环境区 域的应用需求。

Atlas 800 推理服务器(型号:3000/3010):基于昇腾推理处理器和鲲鹏/Intel 处理 器平台,集 AI 推理、存储和网络于一体,可以容纳最大 8 张 AI 推理卡,提供最大 704 TOPS INT8 推理性能,可用于视频分析、OCR、精准营销、医疗影像分析等推 理服务。

Atlas 800 训练服务器(型号:9000/9010):基于昇腾训练处理器和鲲鹏或 Intel 处 理器平台,集成 8 颗昇腾训练处理器,提供 2.24P FLOPS FP16 高算力,可广泛应 用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探 等需要大算力的行业领域。

Atlas 500 Pro 智能边缘服务器(型号:3000):面向边缘应用,基于昇腾推理处理 器和鲲鹏处理器平台,集 AI 推理、存储和网络于一体,可以容纳最大 4 张 AI 推理 卡,提供 352 TOPS INT8 高 Al 推理性能,拥有 475mm 的短机箱,支持 600mm 的 短机柜,可以在边缘场景中广泛部署。

4)集群:Atlas 900 Al 集群由上万颗昇腾训练处理器构成,通过华为集群通信库和作业 调度平台,整合 HCCS、PCIe 4.0 和 100G RoCE 三种高速接口,充分释放昇腾训练处理 器的强大性能。其总算力达到 256P〜1024P FLOPS FP16,相当于 50 万台高性能 PC 的 计算能力,可以让研究人员更快的进行图像、语音的 AI 模型训练,让人类更高效的探索 宇宙奥秘、预测天气、勘探石油,加速自动驾驶的商用进程。

2023 年 7 月 6 日的昇腾人工智能产业高峰论坛上,华为宣布昇腾 AI 集群全面升级,集群规模从最初的 4000 卡集群扩展至 16000 卡,是业界首个万卡 AI 集群,拥有更快的训练速度和 30 天以上的稳定训练周期,十倍领先业界。

发表评论

邮箱地址不会被公开。 必填项已用*标注