大模型AI芯片群雄逐鹿谁主沉浮？英伟达NVIDIA？AMD？华为？

随着人工智能、大数据、高性能计算、生成式AI和大语言模型的快速发展，芯片技术和服务器市场变得越来越重要。大模型需要高性能芯片支持，而芯片技术的发展又为大模型应用和推广提供可能。在这篇文章中，我们将探讨推进芯片快速发展的技术(稳态微聚束加速器光源)、华为和英伟达显卡的对比以及赋能生成式AI和LLM大模型负载L40S服务器。

在大模型下的芯片技术领域，GPU、CPU和ASIC等技术得到了广泛应用。GPU作为图形处理器，最初是为了处理图像和游戏等任务而设计的。然而，随着人工智能和深度学习的发展，GPU逐渐成为大模型训练和推理的首选芯片。

华为和英伟达显卡在大模型服务市场中具有重要地位。华为依托其强大的技术实力和品牌影响力，在显卡市场中占据一席之地。英伟达则凭借其领先的GPU技术和广泛的应用领域，成为了大模型服务市场的领导者。在销售量和市场份额方面，英伟达略胜一筹，但是华为和竞争对手也在不断追赶。

GPU L40S采用先进的芯片技术，可以快速、准确地处理大规模的数据。具有高度的可扩展性，根据需要增加或减少计算资源。此外，还采用先进的算法和模型优化技术，大大提高模型训练的效率和精度。

在芯片制造领域，光刻技术一直扮演着至关重要的角色。然而，传统的光刻技术也存在一些明显的局限性，这些局限性在新一代芯片制造中变得尤为明显。传统的光刻技术需要使用大型、昂贵的设备，如荷兰ASML公司生产的光刻机。这些设备的高成本使得芯片制造过程变得昂贵，不利于成本的降低。而且，传统的光刻技术在追求更小的制程和更高的性能时遇到了困境，因为它们受到了光源功率上限的限制。这导致了制程的瓶颈，制约了芯片技术的发展。

清华大学的唐教授提出的“稳态微聚束加速器光源”为芯片制造带来了一种全新的思路。这一方法的核心在于通过高能加速器对电子进行加速，然后让这些电子穿过交替变化的磁场，从而产生高频率和短波长的电磁波，包括可见光和X射线。简单来说就是将电子加速到接近光速，从而获得更短波长的光，为芯片制造提供了全新的工具。

同步辐射是带电粒子在高速运动时产生的电磁辐射，其特点包括高亮度、宽谱带、高准直性和偏振性等。自20世纪70年代起，人们开始专门建设电子储存环来产生同步辐射。一个同步辐射光源由电子注入器、电子储存环和光束线站组成，追求高亮度和更好相干性，经历四代的发展。中国的北京同步辐射装置属于第一代，合肥光源属于第二代，上海光源属于第三代，正在建设的高能同步辐射光源属于。同步辐射的亮度定义为单位时间、单位面积、单位发散角、0.1%带宽内的光子数。

同步辐射光源的相干性包括横向和纵向两方面。横向相干性与光源尺寸有关，纵向相干性与光源谱宽有关。为获得更高亮度和相干性，需要提高辐射强度、缩小谱宽、减小电子束的发散角。同步辐射光源的发展已经降低电子束的横向发散角，从而获得良好的横向相干性，但纵向相干性仍然较弱，导致束长远超过相干长度，辐射功率较低。

自由电子激光克服这一缺点，利用电子束在波荡器中自放大发射的原理，通过电子束和辐射波在波荡器中相互作用形成微聚束，产生强相干辐射。这种正反馈过程导致辐射指数增长，与同步辐射相比，自由电子激光的峰值亮度提高8-10数量级，相干性更好，脉冲长度更短。其使用自由电子而不是束缚电子，辐射波长可以灵活调节。

自由电子激光的辐射波长由电子束能量、波荡器参数和相对论因子γ决定，而在X射线波段，自由电子激光是唯一的相干光源。可分为低增益模式和高增益模式，早期主要是低增益模式，辐射在共振腔内被多次放大，而当前主要发展的是高增益短波长自由电子激光，即电子束单次通过波荡器就完成从发射到饱和的过程，特别是X射线自由电子激光。

高增益短波长自由电子激光对电子束质量的要求很高，需要电子束横向发散度足够小、能量散度足够小、电流足够大，以保证增益大于损耗。

高增益自由电子激光对电子束质量要求非常高，需要高峰值电流、低发散度和低能量散度。为满足这些要求，主要依靠直线加速器产生电子束。与储存环不同，自由电子激光的重复频率较低，为获取高重复频率，正在研发采用超导射频直线加速器的自由电子激光。

加速器光源已成为人类探索物质世界的最前沿工具之一，基于电子储存环的同步辐射光源提供高重复频率的辐射，基于直线加速器的自由电子激光提供高峰值亮度的辐射，是两种主要类型的加速器光源。这两类大科学装置孕育众多突破性基础研究成果，在先进制造与产业发展中的作用难以估量。

全球有超过50个同步辐射光源和7个X射线自由电子激光装置建成或在建，最先进的加速器光源因其光束质量、科研支撑作用、建设投入和技术复杂程度，已成为国家综合实力和竞争力的重要体现。

随着加速器光源的发展，用户需求也在不断增长，除同步辐射和自由电子激光，人们也期待出现一种同时实现高峰值功率和高重复频率的光源。2010年，Ratner和Chao首次提出一种新型储存环光源——稳态微聚束(SSMB)。

SSMB使用激光而不是射频腔来调制储存环中的电子束。由于激光与电子束的传播方向垂直，因此不能有效地交换能量。为纵向聚焦调制电子束，扭摆磁铁被采用，实现激光调制，类似于射频腔调制。

在SSMB储存环中，由于激光波长比微波波长短了约6个数量级，通过精心设计的磁系统，电子束团长度可以达到亚微米至纳米量级，形成微聚束。同时，束团间隔从微波波长缩短到激光波长，使得单位长度内的束团数目提高了6个数量级。与传统束团相比，微聚束的特点是束团内电子纵向分布长度比辐射波长短，不同电子的辐射场保持相干并相干叠加，使得辐射强度与束长内电子数平方成正比，远高于非相干辐射的线性关系。

微聚束产生强相干辐射的原因是含有N个电子的束团辐射功率包括与N线性相关的非相干辐射和与N的平方相关的相干辐射。相干辐射显著高于非相干辐射需要束长小于辐射波长，因此纳米级束长的微聚束可产生短波长相干辐射。

高增益自由电子激光中的微聚束源自束内不稳定性，难以长期维持，而SSMB中的微聚束来自激光主动调制，是稳定的相干辐射，可在环中重复利用。SSMB结合微聚束的强相干性和储存环的高重复频率，可提供高平均功率、窄带宽的相干辐射，具有巨大的潜力。SSMB辐射的多项特性可为加速器光子科学研究和应用带来新机遇，如EUV光刻的光源等。

稳态微聚束(SSMB)从概念到应用必须进行原理验证实验。清华大学等自2017年开始进行SSMB原理验证研究，利用德国的MLS准等时储存环完成了SSMB的原理验证。

在SSMB原理验证实验中，利用德国的MLS准等时储存环，电子束被激光调制能量后，形成微米量级的调制周期密度调制，即微聚束。微聚束在波荡器中发出强相干辐射，通过检测该辐射验证微聚束形成。

实验结果显示，被激光调制的电子束辐射信号得到放大，同时窄带滤波后的信号比宽谱辐射更大，证明了微聚束的窄带相干辐射。此外，还研究了辐射强度与束流强度的关系。通过这一原理验证实验，首次展示了激光调制可在环中产生微聚束并发出相干辐射的效应，完成SSMB核心概念的实验验证。

在实验中，还测量了辐射功率与电荷量的依赖关系，结果显示了与电荷量平方成正比的特点，这正是相干辐射最重要的特征。此外，辐射呈现窄带特性。这两点有力地证明了微聚束的形成。最近，我们还进一步实现了微聚束在储存环中多圈稳定存在，电子束实现了多圈相干发射。通过检测辐射功率关系和频谱特性，验证了微聚束形成并相干发射。进而展示微聚束可在环中多圈稳定，完成SSMB核心概念的多圈相干发射验证。

实验成功实现微聚束的形成和多圈稳定存在，这证明了电子纵向位置能以精确于激光波长的精度在环中关联，使电子稳定受困于激光形成的势场。这一实验与直线段上的微聚束实验不同，重点在于展示了：

该实验仅展示one-turn map的一次迭代形成微聚束，而SSMB需要多次迭代实现稳态微聚束。这是从0到1的验证，标志着SSMB发展的第一个里程碑。即使在非优化环中，SSMB机理也展现出强大的鲁棒性，这激励我们构建专用环进一步完美实现SSMB。

SSMB原理验证实验的成功证明SSMB光源的可行性。为进一步推进SSMB光源的实际建设，需要深入研究其核心物理并解决关键技术挑战。相比传统储存环，SSMB中的束长缩短6个数量级，为加速器物理和技术的发展带来了新的机遇。下一步需要关注SSMB在环中的产生机理、SSMB的辐射特性以及技术实现方面的关键挑战。

要求超短束团在辐射段能够一圈接一圈地重复出现，即超短束团在辐射段中呈现的是该储存在环中的本征态。为了实现在较低调制激光功率下的束团压缩，对于储环的lattice设计而言，探索横纵向耦合在每一圈中的利用方式是一个新颖且有趣的课题。

由于对束团的操控要求精微，非线性滑相因子、非线性横纵向耦合等都可能影响束团动力学，如六维动力学孔径以及束流在六维相空间的分布。在传统储存环中，主要关注横向动力学孔径的优化，而SSMB则需要同时关注横向和纵向，即六维相空间的优化。

因此，需要发展相关的理论并结合先进的数值方法(如机器学习、遗传算法)进行SSMB的非线性动力学优化。此外，集体效应也是SSMB储存环中需要关注的问题。由于SSMB储存环中束团极短，束流的峰值流强和平均流强相对较高，相干同步辐射、束内散射以及阻抗壁尾场等都可能会对微束团结构的稳态参数以及稳定存储产生影响从而限制束流能量和强度。此外，SSMB储存环内的束流分布模式不同于传统储存环，微束团的辐射可以追上其前方的一个或多个微束团，使得通常被认为是短程的相干同步辐射在SSMB的语境下变为长程。这些因素要求对相干同步辐射、横纵向耦合导致的束团长度变化、三维任意耦合以及纵向强聚焦lattice中的IBS等进行仔细的评估和研究。

噪声对电子束团的影响按频率可分为两部分：高频噪声导致束团在相空间的扩散从而引起发射度的增长，而低频噪声会导致束团的质心运动。对于高频噪声，需要保证其对束流稳态发射度的贡献处于可接受的范围内以实现超短电子束团的形成;对于低频噪声，需要保证其对束流的影响满足绝热条件，从而使电子束团在质心受噪声影响发生移动时保证发射度不变。如果噪声对电子束的影响超出了可接受范围，需要采用相应的反馈系统或其他阻尼机制来降低噪声的影响。需要注意的是，由于SSMB的工作模式(如纵向强聚焦、强纵横耦合)不同于一般储存环，其噪声和误差容忍度的解析分析也将相对复杂。如传统射频腔相噪分析中采用的正则微扰论在纵向强聚焦储存环中就无法直接应用因为该动力系统是不可积的(混沌的)。另一方面借助于现有计算机的强大计算能力可以对噪声的影响进行直接的数值模拟研究。

在形成稳态微聚束后，需要研究SSMB的辐射特性。SSMB的微聚束纵向发散极小，辐射在纵向上高度相干，其束流分布模式独特。为指导设计与优化，需要研究束流在六维相空间的分布对SSMB辐射参数的影响。研究实验者已经进行相关的理论推导和程序开发。计算结果显示，在适当的参数下，SSMB可以直接实现平均功率1kW以上的EUV输出，这为SSMB的光源设计提供了指导。

为实现SSMB，需要高激光功率、相位锁定，并采用连续波或高占空比的调制激光以提高束流占空比和辐射光的平均功率。因此，SSMB的激光调制系统采用了光学增益腔。

由于SSMB的平均流强较高，约为1A，因此需要专门设计大电荷量、长脉冲(百纳秒量级)注入束流。为了减少SSMB出光过程中的功率变化，希望其工作在流强基本恒定不变的top-up模式，同时也可降低对单次注入束流强度的要求。

为了提高SSMB储存环的束流占空比，需要采用连续激光，并对长脉冲电子束的能量补充提出不同于传统储存环的要求。此外，高精度磁铁、高精度控制系统等也需要在现有的同步辐射光源的基础上进一步发展。

自2017年以来，清华团队开始研究面向EUV光刻的大功率SSMB-EUV光源。在原理验证、束流动力学、物理设计和关键技术方面取得了重要进展。在束流动力学研究中，团队解决了实现超短束所需关注的核心物理问题，完成了能够稳定储存纳米级束的储存环设计，并开展了集体效应等方面的研究。辐射理论和数值计算表明，SSMB可以实现千瓦级的EUV输出。在关键技术方面，团队搭建了光学腔平台，研制出样机，并合作研发了MHz感应加速单元等。

基于这些研究成果，团队提出了SSMB-EUV光源方案。该方案采用微波电子枪和直线加速器产生束流，经展束环调整分布后注入主环，在主环中激光调制形成稳态微聚束。微聚束在辐射段被进一步压缩，实现13.5nm EUV强相干发射，输出功率达到千瓦量级。这一创新为EUV光源技术的发展提供了新的途径。

直线厘米间隔内提供数百个等电荷量的微脉冲束团，微脉冲束团的脉冲长度在百纳秒量级，总电荷量也是百纳库量级，平均流强为1A。

多脉冲束团被注入到展束环中，通过优化微脉冲束团的能散和展束环的滑相因子，使微束团长度在展束环中被拉长，相邻的束团流强分布首尾相连相互重叠，形成近似均匀流强的长度百纳秒量级的准直流电子束，然后注入到SSMB储存环中。

被注入的束流被调制激光的势阱俘获(光学 micro-bucket)，经过辐射阻尼及量子激发到达平衡，形成间隔为激光波长(约 )的微束团。SSMB主环的设计极小化了全局及局部滑相因子，从而控制全环纵向函数，使电子束实现极低的稳态纵向发射度和束团长度(十纳米到数十纳米)。储存环的非线性动力学经过仔细优化，能实现足够大的六维动力学孔径，以保证束团能稳定且具有足够寿命地储存在光学 micro-bucket 中。

对SSMB主环中的束团进行进一步压缩，在辐射段实现长度约为3nm的微束团，从而产生波长为13.5nm的强相干EUV光。具体的压缩方案包括纵向强聚焦、横纵向耦合(广义纵向强聚焦)等。辐射元件采用优化设计的波荡器，能产生大功率窄带宽的EUV光。

采用窄线宽种子激光和高精细度光学增益腔，实现约1MW的平均存储功率，满足SSMB-EUV光源需求。

采用MHz重频的直线感应加速器，补偿平均流强约为1A的束流平均功率数千瓦到十千瓦的辐射损失。

目前全球唯一的 EUV 光刻机供应商是荷兰的 ASML 公司，其采用激光等离子体(LPP)的 EUV 光源。具体来说，ASML 通过一台功率大于 20 kW 的 CO 气体激光器轰击液态锡形成等离子体，从而产生 13.5 nm 的 EUV 光。

通过不断优化驱动激光功率、EUV 光转化效率、收集效率以及控制系统，LPP-EUV 光源目前能够在中间焦点处实现 350 W 左右的 EUV 光功率，该功率水平刚达到工业量产的门槛指标。产业界认为 LPP 光源未来可以达到的 EUV 功率最高为 500 W 左右，如果想要继续将 EUV 光刻向 3 nm 以下工艺节点推进，LPP-EUV 光源的功率将遇到瓶颈。

由于基于等离子体辐射的 EUV 光源功率进一步突破困难，因此基于相对论电子束的各类加速器光源逐渐进入产业界的视野，如基于超导直线加速器技术的高重频 FEL 以及 SSMB 等。

SSMB储存环支持安装多条EUV光束线，可同时作为光刻大功率照明光源及掩模、光学器件的检测光源，还可以为EUV光刻胶的研究提供支撑

SSMB光源容易实现EUV光刻所需的小于2%的窄带宽要求，并且波荡器辐射集中于mrad的角度范围内。窄带宽以及高准直的特性可为基于SSMB的EUV光刻光学系统带来创新性的设计，同时可以降低EUV光学反射镜的工艺难度

SSMB输出的是连续波或准连续波辐射，可以避免辐射功率大幅涨落而引起的对芯片的损伤。储存环光源的稳定性好，采用top-up运行模式的SSMB储存环可使光源的长时间可用性得到进一步提升

与LPP-EUV光源相比，波荡器辐射的高真空环境对光刻的光学系统反射镜不会产生污染，镜子的使用寿命可以大大延长

SSMB原理上容易往更短波长拓展，为下一代采用波长6.x nm的Blue-X光刻技术留有可能

SSMB-EUV光源的成功研制将有望推动我国EUV光刻技术的跨越式进步。与此同时，SSMB加速器光源能够产生高平均功率、窄线宽的从太赫兹到软X射线的相干辐射，并且其时间结构可调范围广泛，这将对物理、化学、能源、环境等学科的基础研究与应用研究带来全新的研究工具和手段。

计算机视觉的目标是设计能识别和处理视觉信号的程序,使计算机看得更好。典型任务有图像分类、物体检测、分割、追踪和姿态估计。ImageNet数据集包含超过2万个物体类别，用于图像分类。MS-COCO数据集包含检测、分割等任务。

在计算机中，视觉信号以像素密集采样的方式来存储光强度。然而，像素并不代表语义信息，因此这种存储形式与人类理解之间存在巨大的差距

AI正在逐渐深入到企业的核心生产系统中，并发挥出更大的价值。预计到2025年，企业采用AI的比例将达到86%，而当前这一数字仅为4%。在众多的AI项目中，有600+已经得到实践，其中30%已经进入了生产系统。然而，AI在各行各业的应用仍然面临诸多挑战，如场景碎片化、作坊式开发方式导致规模化复制困难、行业知识与AI技术结合难度大、以及人们对AI模型安全性、隐私和潜在攻击的担忧。

近年来，云计算市场迅速发展，客户需求从资源需求向智能和业务方案需求转变。市场前景广阔，但业务数量众多、场景复杂也带来挑战。随着市场的成熟，定制化解决方案相较于统一方案更具优势，中小型供应商也具有了竞争力。然而，在保证业务规模的同时，如何控制成本、提高效率和质量成为核心难题。

另一方面，传统行业也在积极利用AI技术解决问题，这需要算法具备通用性。然而，目前AI开发主要采取的是针对每个场景独立开发的模式，缺乏通用知识的积累。这也导致低水平开发者难以掌握规范流程和优化技巧，进而影响模型的效果。

为解决AI算法落地面临的碎片化问题，预训练大模型应运而生。这种模型通过无监督学习从大规模数据中提取通用知识，并将其储存在参数量巨大的模型中。在遇到具体任务时，只需要调用统一的流程来应用这些知识，并结合领域经验来解决具体问题。近年来，预训练模型的研究和应用持续爆发，有望在AI领域发挥统领作用。然而，要实现预训练模型的商业规模应用，还有一段路要走，这需要技术和商业模式双轮驱动。我们设想大模型可以成为AI的操作系统，管理硬件资源，支撑算法应用，从而使AI开发更加规范和普及。

人工智能存在着逻辑演绎、归纳统计和类脑计算三大流派，各具优势并持续争议。类脑计算目标远大，但缺乏生命科学支撑。归纳演绎方式与人类相似，可解释性强，是前两次繁荣的主角。随着对人工智能困难性的理解，逻辑方法的局限性被放大，统计学习在第三次繁荣期占据主导地位。深度学习进一步推崇“抛弃先验，拥抱数据”的思想。

深度学习是当代产物，得益于大数据和大算力的支持，其核心是深度神经网络，通过通用骨干网络与特定目的头部网络的配合，实现了对各个子领域的统一解决问题。然而，其本质仍是统计学习的框架，缺乏人类基于知识的推断方式，导致通用性受限，且开发成本高昂，难以惠及细分行业。

预训练大模型是深度学习时代的集大成者，分为上游(模型预训练)和下游(模型微调)两个阶段，旨在解决上述问题。虽然预训练大模型不直接导向人工智能，但两个重要判断对其未来发展有着深远影响。

1）在下一个划时代的计算模型出现以前，大模型将是人工智能领域最有效的通用范式，并将产生巨大的商业价值

根据实际操作经验，预训练大模型加持下的人工智能算法(包括计算机视觉和自然语言处理等领域)相比于普通开发者从头搭建的算法，精度显著提高、数据和计算成本明显降低，并且开发难度大大降低。以计算机视觉为例：在以前，要在100张图像上训练基础物体检测算法，需要8块GPU运行5个小时，一名开发者需要工作1个星期才能完成。然而，有了预训练模型的支持，现在只需要1块GPU运行2个小时，而且几乎不需要人力干预。综合人力和算力开销的考虑，上述案例的开发成本降低90%甚至99%。

在2011年之前，统计学习方法盛行，词袋模型的参数达到了10亿量级。然而，2012年只有6000万参数的深度网络打败了词袋模型，推动了计算机视觉领域的发展。深度网络相比词袋模型，在特征提取效率上取得了突破性进展。我们预测，随着大模型不断发展，结合知识后可能会出现新的突破，推动统计学习的进化。

目前看来，预训练大模型代表了统计学习的最高成就，也是当前人工智能的最强武器。在新技术出现之前，预训练大模型将继续引领人工智能研发。中美两国已经在大模型的研发和应用方面展开了竞争。

华为云团队在2020年启动大模型研发项目，并于2021年4月首次公开了名为“盘古预训练大模型”的成果。盘古大模型集合了华为在AI领域的多项研究成果，并深度结合昇腾芯片、MindSpore语言和ModelArts平台。下面将简要介绍盘古大模型的组成部分，并剖析构建大模型的关键技术。

计算机视觉的目标是设计能够识别和处理视觉信号的程序，从而使计算机能够更好地“看”。其典型任务包括图像分类、物体检测、分割、追踪和姿态估计。ImageNet数据集包含超过2万个物体类别，用于图像分类任务，而MS-COCO数据集则包含检测和分割等任务。

在计算机中，视觉信号以像素密集采样的方式来存储光强度。然而，像素并不代表语义信息，因此这种存储形式与人类理解之间存在巨大的差距，这被称为语义鸿沟，是计算机视觉的核心问题。进一步分析图像信号的特点，发现以下几点：

图像信号虽然能客观地反映出事物的特征，但其中相当一部分数据用于表达图像中的低频区域(如天空)或无明确语义的高频区域(如随机噪声)。

图像信号受到各种域的影响，这种影响通常具有全局性质，难以与语义区分开来。例如，同样的语义内容在不同的光照条件下会呈现出完全不同的表征。同时，相同的物体以不同的尺寸、视角和姿态出现时，会在像素层面产生巨大差异，给视觉识别算法带来困难。

基于此使用了卷积网络和Transformer等主流视觉模型架构。自动机器学习算法支持不同规模模型，最大规模近30亿参数，最小仅数十万，可适配不同任务。

训练数据主要来自互联网，不含准确语义标签。采用自监督学习方法，通过设计代理任务让模型在无标签数据上拟合分布。在对比学习基础上改进了自监督算法，引入等级化语义相似度挑选更优质的正样本,并使用混合数据增强技术减少噪声影响。还扩大了正样本数目，避免负样本对训练的影响。

自然语言是人类存储和交换信息的重要方式，通过文字和语音两种形式实现。因此，语音语义处理分为自然语言处理和语音处理两个领域，目标都是让机器像人类一样理解和使用语言。自然语言处理和语音处理都包含理解和生成两个方面，但处理的信号类型不同，一个是文本，一个是音频。虽然文本和音频大多数情况下高度相关，但也有一些独特的表达情况。

语音语义处理的核心是将文字和声音转化为机器可处理的格式。在深度学习之前，主要通过特征工程实现，但这种方法依赖于专家知识且难以扩展。随着深度学习的发展，自动学习语言的向量表示逐渐成为主流。编码器-框架被用于处理文字和音频信号，其中编码器将语言映射到低维向量，将低维向量映射回语言。设计合适的网络结构和学会参数是深度学习中的关键技术问题。在小型模型时代，CNN和RNN技术占主导地位，而LSTM模型因处理远距离依赖的能力而备受关注。然而，RNN的优化不稳定且难以并行计算，因此限制了构建大型语言模型的规模。

2017年，自注意力Transformer模块被提出，结合已有方法优点，在速度和表达能力上具有巨大优势，迅速在自然语言处理和语音识别领域得到应用。随着大规模语料库的出现和自监督学习方法的成熟，2018年出现了预训练模型BERT并进入大模型时代。现在，预训练大模型凭借出色的泛化能力和基于提示的微调技术，简化各种下游任务的实现方式，推动自然语言处理和语音识别领域的巨大发展，成为语音语义处理领域的最佳方案。

自然语言处理和语音识别类似于计算机视觉，也需要大规模数据集作为基础。爬取40TB原始网页数据，通过解析和清洗，使用正则表达式等方法过滤噪声、去重和规范长度，最终得到约647GB文本数据。语音部分，爬取超过7万小时普通话音频数据，转换为音频文件，共计约11TB，视频来源多样。

对于语义部分，使用基于Transformer的编码-神经网络模型。编码器采用双向自注意力机制来理解文本，则通过单向自注意力逐词生成文本。提出多任务融合策略来让模型从海量文本数据中获取语言知识。遮罩语言模型用于训练理解能力，即对原文进行挖空并预测缺失的部分。回归语言模型用于训练生成能力，给定上文，预测下文。为提高零样本推理能力，收集了100+下游任务数据并加入预训练中。

对于语音部分，与文本相似，但音频编码器采用了卷积与Transformer结合的网络结构。底层卷积神经网络提取局部信息，上层Transfomer提取全局信息。使用对比学习策略，将音频中的片段挖空并与随机负例进行比较，以找出正确的被挖掉的片段。

多模态任务不同于计算机视觉或自然语言处理等单一模态任务，需要在海量多模态数据上进行预训练，并将预训练知识迁移到下游各项任务中，以提升下游任务的精度。典型的多模态任务包括跨模态检索(如以文搜图或以图搜文)、视觉问答(通过图像内部信息回答问题)和视觉定位(在图像中定位描述的对应区域)。

与视觉和语音语义大模型一样，多模态大模型的训练也需要在大量高质量数据上进行。采用了业界常用的做法，从互联网上爬取大量图文数据，通过过滤算法消除不符合要求的数据，最终得到高质量的图文配对数据，用于多模态大模型的预训练。具体来说，设定了大量文本关键字，在搜索引擎上获取与之匹配的图像，并将图像对应的文本存储下来，形成图文配对数据池。在去掉重复数据后，进一步筛选出分辨率高、文本长度适中的数据。接着，使用已有的多模态预训练模型对配对数据的相似度进行判断，如果相似度太低，就丢弃文本描述并使用图像自动描述算法来生成文本数据。经过上述预处理过程，最终得到了约3.5亿高质量的图文配对数据，占据约60TB存储空间。

多模态大模型预训练的关键在于不同模态数据的高效交互和融合。当前主流的多模态大模型架构分为单塔架构和双塔架构。单塔架构使用一个深度神经网络(一般是 Transformer)实现图像和文本之间的交互融合，属于信息前融合方案;而双塔架构使用不同的神经网络来完成不同模态的信息抽取，并在最后一层进行信息交互和融合，属于信息后融合方案。

盘古大模型采用双塔架构，具有模型独立性强、训练效率高等优势。实现方式简单，使用相应网络抽取图像和文本特征，然后将一个批次的图像和文本特征送入判别器，在对比损失函数的作用下，使得配对的跨模态特征聚集在一起，而不配对跨模态特征被拉远。在大数据集上充分迭代后，模型就能学会将图像和文本对齐到同一空间。此时，图像和文本的编码器可以独立用于各自下游任务，或协同用于跨模态理解类下游任务。

视觉大模型、自然语言大模型和多模态大模型主要用于解决通用的人工智能问题，如音频分析、图像识别和语义理解等。人类能够标注大规模数据集供深度神经网络学习这些问题。然而，在自然科学领域中，还存在许多人类无法解决的问题，比如湍流模拟、天气预报和大形变应力建模等。这些问题具有广泛的应用前景，如下所示：

近年来，随着人工智能技术的迅速发展，业界出现了AI+科学计算方法，即使用嵌入科学方程的深度神经网络，直接从观测和仿真数据中学习问题蕴含的规律，以分析复杂的科学数据并了解科学过程的内部机理。

从预训练大模型的角度看，科学计算大模型与其他大模型有许多相似之处。都依赖于大规模数据集、需要设计具有大量参数的神经网络、经历复杂的优化过程，并将知识存储在网络参数中。接下来，将简单描述科学计算的独特之处。

在AI+科学计算场景中，数据分为观测和仿真两类。观测数据由工具产生，如游标卡尺等，仿真数据由算法产生。这些数据、融合数据和机理知识都可以作为AI模型的学习对象。不同场景的观测数据差异大，需使用专业仪器与实验系统收集，如蛋白质结构预测中的X射线衍射和核磁共振等。仿真数据来自算法输出，蕴含丰富的数学物理信息。同一个问题使用不同算法可产生不同仿真数据，精度受限。相对于观测数据，仿真数据通常更大，可有效扩充数据。在某些场景中，观测和仿真数据结合机理知识生成融合数据，如气象再分析数据。

根据输入数据的性质，算选择合适的基础模型进行海浪预测等科学计算任务。对于二维球面数据，适合使用二维网络模型;而三维数据则需使用三维网络模型。这两种模型可借鉴计算机视觉领域的卷积神经网络和视觉 Transformer 模型进行预训练。同时，科学计算的特点在于利用人类经验形成约束性质的偏微分方程组，将其嵌入神经网络中可增强模型的鲁棒性并降低拟合难度和不稳定。

下面我们来探讨一个典型的科学计算案例，即全球海浪高度预测系统。海浪预测的输入和输出都是经纬度网格点上的气象要素数据，数据形式与视频数据相似。但海浪数据是浮点数，不同于视频数据的像素值。此外，海浪数据还满足球坐标条件下的一系列不变性，因此需要选定满足特定不变性的CNN或者Transformer架构。

盘古海浪预测模型的主体是考虑了旋转不变性的视觉Transformer架构，参数量约为五亿。模型的损失函数由两部分组成：实际数据上的预测误差和海浪预测本身需要满足的偏微分方程。通过使用全球近10年的实时海浪高度数据进行训练，模型在验证集上预测的平均误差小于5cm，与传统预测方法相当，完全可以满足实际应用需求。更重要的是，AI算法的预测时间较传统方法大幅减少：在单张华为昇腾芯片上，1s之内即可得到全球海浪高度预测，1分钟内能够完成超过100次海浪预测任务，推理效率较传统方法提升了4-5个数量级。

使用AI算法可以迅速得到不同可能的风速条件下的海浪高度，进行实时预测和未来情况模拟，对渔业养殖、灾害防控等场景具有极大的价值。

最近，由ChatGPT引领的AI热潮再次兴起，国内外科技公司纷纷投入到大语言模型和生成式AI的研发中，展开一场对计算能力的竞赛。GPT背后的核心算法是谷歌在2017年提出的Transformer，这种算法通过采用自我监督预训练的方式，近乎无需人工干预，因此需要大量训练数据，再加上少量的有监督微调和强化学习相结合。随着更为复杂和多元化模型的涌现，高算力的AI芯片将充分受益于这种发展趋势。然而，如果这些技术在消费端的应用仅仅停留在表面，那么其意义并不大。

根据AI论文中不同芯片的引用数据，英伟达的芯片在AI研究领域广受欢迎。其产品的使用率是ASIC的131倍，高出Graphcore、Habana、Cerebras、SambaNova和寒武纪五家公司总和的90倍，是谷歌TPU的78倍，是FPGA的23倍。通常，在人工智能领域，新模型的推出都会在相关论文中进行发表，以便于信息交流与学术合作。英伟达在人工智能相关论文中的引用数量遥遥领先，这反映新算法需要采用英伟达GPU的必要性，以及其在学术界长期以来的重要地位和影响力。

英伟达一直致力于开发高性能计算芯片的迭代，不断在产品工艺、计算能力和存储带宽等方面进行创新。针对高性能计算和深度学习应用场景，英伟达基于其芯片架构，推出一系列GPU产品，以提升张量核心和稀疏矩阵计算等功能。2023年，英伟达不满足于单GPU的更新换代，推出结合Grace CPU与Hopper GPU的GH200超级芯片，实现高达900GB/s的总带宽，加速大规模AI和HPC应用计算。在SIGGRAPH上，英伟达的AI芯片再次迎来升级，推出全球首次采用HBM3e内存的GH200超级芯片。该芯片的带宽高达每秒5TB，并提供141GB的内存容量，适用于复杂的生成式人工智能工作负载，如大型语言模型、推荐系统和矢量数据库等。

在AI应用中，GPU算力较高，适用于并行计算，在视频处理、图像渲染等方面具有优势，但并不是所有工作负载都只需要单纯的GPU处理，还需要由CPU进行控制调用，发布指令。因此，在CPU+GPU架构中，CPU可以负责控制和发出指令，指示GPU处理数据和完成运算(如矩阵运算)。MI300A中的CPU采用的是x86架构，而GH200中的CPU采用的是ARM架构。两种架构各有优势，一般来说，ARM架构主要应用于移动端，因此相比x86能耗较低，这一点在AI和数据中心的应用中都会受到青睐。

谷歌的TPU(Tensor Processing Unit)是云厂商自研AI芯片的典型例子之一，从2017年开始已具备训练和推理能力。谷歌TPU是少数能够与英伟达高算力GPU相匹敌的AI芯片。在架构与性能参数上不断迭代，第一代TPU从2015年开始被使用于谷歌云计算数据中心的机器学习应用中，当时仅面向推理端，但从2017年推出第二始，TPU已同时拥有训练和推理能力。第三代TPU于2018年发布，旨在提高性能和能效以满足不断增长的机器学习任务需求。TPU于2021年发布，而专为中大规模训练和推理而构建的TPUv5e于2023年发布。与TPUv4相比，TPUv5e可为大语言模型提供高达2倍的训练性能和2.5倍的推理性能，并能节约一半以上的成本。谷歌目前仅通过谷歌云服务平台向外部客户提供TPU的算力租赁服务，而未有将其作为硬件产品出售。

AWS于2018年和2020年分别发布AI推理芯片Inferentia和训练芯片Trainium，随后在2023年推出第二代Inferentia，并在AWS云上提供给客户使用。亚马逊在2015年收购以色列芯片设计公司AnnapumaLabs，从而开始自研AI芯片的旅程，而第一代Inferentia正是源自该公司的技术。AWS的AI芯片搭配AWSNeuron开发软件包，其中包含可用于兼容TensorFlow和PyTorch的编译器。2023年5月，亚马逊表示计划将其自研的大语言模型“AlexaTeacherModel”(AlexaTM)接入智能语音助手Alexa。Alexa此前已经接入亚马逊Echo智能音箱等智能硬件设备，并使用Inferentia进行推理。

根据亚马逊官网的信息，相比第一代 Inferentia，第二代的延迟降低十分之一，吞吐量提高四倍。由于大规模终端设备 AI 模型对云端推理能力要求较高，而自研 AI 芯片等信息基础设施和自身应用可以进行针对性的相互适配与优化，Amazon 人工智能助手 Alexa 使用以 Inferentia 为支撑的 Inf 实例进行推理负载。

meta 在 2023 年 5 月发布自主研发的 AI 芯片 MTIA，该芯片主要针对推理工作，从 2020 年开始设计，预计于 2025 年正式推出，采用台积电 7nm 制程。MTIAv1 是针对推理端的产品，使用最高 128GB 的 LPDDR5 内存，采用 RISC-V 架构，并配合基于 PyTorch 的软件包。与其他云厂商自主研发的 AI 芯片类似，MTIA 是针对公司内部应用和模型量身定制的 ASIC，尤其是针对 meta 旗下产品所需的 feed(例如 Instagram 的用户浏览界面)贴文推荐算法进行了优化。与通用芯片相比，MTIA 可以实现降本增效。

当谈到千卡集群GPT3模型训练性能时，华为当代Atlas集群以其卓越的表现领先于NV DGXA800集群1.2倍。华为当代Atlas集群作为一种先进的计算平台，以其出色的计算能力和高效的数据处理能力而闻名，为大规模深度学习模型的训练任务提供了有力的支持。

华为当代Atlas集群的卓越性能源于其先进的硬件设计和优化的软件架构。该集群采用了高性能的GPU加速器和高速互联网络，这使得数据传输和计算速度得以显著提升。这种卓越的硬件设计与华为自主研发的优化算法和分布式训练框架相结合，进一步提升了模型训练的效率。

与NV DGXA800集群相比，华为当代Atlas集群在千卡集群GPT3模型训练性能上具有明显的优势。使用华为当代Atlas集群进行训练任务，能够以更快的速度完成模型训练，从而提高工作效率。这种领先性能的差距不仅体现在训练时间上，还可以在模型的收敛速度和训练结果的质量上得到体现。

华为当代Atlas集群的领先性能使其成为深度学习研究人员和工程师的首选。无论是进行大规模数据训练还是进行复杂模型的训练任务，华为当代Atlas集群都能够提供卓越的性能和可靠的支持，帮助用户更快地实现预期的训练目标。

蓝海大脑大模型训练平台提供强大的算力支持，包括基于开放加速模组高速互联的AI加速器。配置高速内存且支持全互联拓扑，满足大模型训练中张量并行的通信需求。支持高性能I/O扩展，同时可以扩展至万卡AI集群，满足大模型流水线和数据并行的通信需求。强大的液冷系统热插拔及智能电源管理技术，当BMC收到PSU故障或错误警告(如断电、电涌，过热)，自动强制系统的CPU进入ULFM(超低频模式，以实现最低功耗)。致力于通过“低碳节能”为客户提供环保绿色的高性能计算解决方案。主要应用于深度学习、学术教育、生物医药、地球勘探、气象海洋、超算中心、AI及大数据等领域。

一种基于通用服务器和专用硬件的综合解决方案，用于调度和管理多种异构计算资源，包括CPU、GPU等。通过强大的虚拟化管理功能，能够轻松部署底层计算资源，并高效运行各种模型。同时充分发挥不同异构资源的硬件加速能力，以加快模型的运行速度和生成速度。

支持多存储类型协议，包括块、文件和对象存储服务。将存储资源池化实现模型和生成数据的自由流通，提高数据的利用率。同时采用多副本、多级故障域和故障自恢复等数据保护机制，确保模型和数据的安全稳定运行。

提供算力资源的网络和存储，并通过分布式网络机制进行转发，透传物理网络性能，显著提高模型算力的效率和性能。

在模型托管方面，采用严格的权限管理机制，确保模型仓库的安全性。在数据存储方面，提供私有化部署和数据磁盘加密等措施，保证数据的安全可控性。同时，在模型分发和运行过程中，提供全面的账号认证和日志审计功能，全方位保障模型和数据的安全性。

目前，中欧互为最大经贸伙伴之一，双方在双边和多边层面存在大量的合作空间，双方若运作良好，合作前景依然广阔。在2023年年初展望中，中欧双方基于长期合作的战略条件，存在开展合作的共同利益诉求，以及在合作形式上还有更加多元化的可能。为此，中欧应当在符合各自制

“前几天还能把这些诗词和课文段落背诵下来，怎么今天就背不出来，这么快给忘了?”“这个单元的英语单词怎么又记不住?”“才十几个单词，怎么背了半天还没记熟?”“单词跟着学习机上的朗读发音一直没读准?”······针对孩子背不牢课文记不住单词，我作为一个小学生

打响闺蜜生活场景里的场景化营销大事件提到“闺蜜”，当代年轻人的脑内总能第一时间联想起那些与闺蜜相处的美好场景：午后阳光里与闺蜜聊人生、聊八卦的精致下午茶;跟着闺蜜踏进某家健身房一起报班练起普拉提;被闺蜜拖着暴走，探店打卡各处老弄堂、新街区的每一次Citywa

使用了“超短焦技术”的投影仪，却不叫超短焦投影，而叫“激光电视”。横看整个消费市场，超短焦投影产品并不少，但大多数都没有冠以“超短焦投影”之名，而是用“激光电视”进行宣传。究其原因，一方面“激光电视”的概念可以增加产品溢价，另一方面教育市场接受“超短

投影仪哪款性价比最高?越来越多的人选择在客厅里安装投影仪，但是不知道该选哪款?面对众多的品牌，复杂的参数配置，怎么样挑选一款适合客厅的投影仪呢?家用投影仪哪款性价比最高?今天就来说说当贝F6投影仪，2023年家用投影仪性价比之王。性价比投影仪选购思路其实在挑选

10月26日，雷曼正式发布全球首款PM驱动玻璃基Micro LED显示屏，并在同日举行的2023第六届中国(国际)Micro LED显示高峰论坛上，首次展出应用PM驱动玻璃基板的220英寸雷曼Micro LED超高清家庭巨幕。应用PM驱动玻璃基Micro LED显示屏的220英寸雷曼超高清家庭巨幕分辨率为38

⌊屏⌉热爱而生易跑YIFIT全触控彩屏跑步机正式预售10月24日晚，一年一度的双十一预售拉开帷幕，易跑创始人胡强空降品牌天猫直播间，除了给用户带来超多总裁福利外，还发布了年度重磅产品——YIFIT全触控彩屏跑步机并正式开启狂欢预售。全新YIFIT彩屏将在易跑马拉松系列

最早听到“云”出现在计算机领域的时候，还是那会儿的“云聊”。和古人喜欢把思念寄托在云朵里一样，如今我们把数据存储在云端，摒弃了繁琐的流程，就像那些年一起“收菜”、“偷菜”的日子。如此“云”种菜、“云”放牧离不开云计算和云服务器概念的推出与普及。那么云

随着最新款iPhone 15的盛大发布，手机已全面迈入USB-C时代!但这一变革不仅仅限于手机，作为办公协作中不可或缺的设备，越来越多的电脑也采用了USB-C接口。USB-C作为新主流接口在协作空间的应用中又面临哪些挑战呢?一、连接在各种协作场景，包括会议办公、培训和教学，如

近日，全球领先的数字潮流艺术平台HOTDOG再获东方卫视关注，高度评价HOTDOG为“Z世代首选的社交娱乐新平台。”报道从国家政策角度出发，大力肯定了HOTDOG在推动社会数字化转型进程中所起到的积极作用——“上海已多次释放发展、培育元宇宙新赛道的积极信号，奋力推动元

风擎山河势，意驭乾坤移，《剑网3》年度资料片“万灵当歌”今日正式公测，超多内容重磅来袭!PC旗舰画质beta上线正式服，充分提升场景代入感，风格化诠释与呈现，且以水墨国风，展现东方韵味!明年4月还将会更换PC新引擎和推出移动端，内容迭代，持续提升!更多重点内容，

近年来，消费趋势朝着更加个性化、多元化、绿色化的方向演进，驱动家电行业不断向智能化、低碳环保方向进阶。基于消费者不断升级的消费需求，三星持续丰富BESPOKE缤色铂格系列产品，打造兼顾科技、环保与颜值的BESPOKE缤色铂格冰箱、洗/干衣机、吸尘器等，用创新科技为

10月24日，由声网和RTE开发者社区联合主办的RTE 2023第九届实时互联网大会正式开幕。本届大会以“智能·高清”为主题，汇聚行业代表企业、知名投资人、技术专家、开发者等机构和各领域大咖，覆盖了AIGC、数字化转型等时下最热门的话题。作为社交行业的代表，Soul App受

近日,国外知名研究团队Humble Farmer Army Research发表了一期对波场TRON的研究报告,具体从波场TRON的链上直观数据、生态、竞品对比以及原生代币TRX来进行分析,多角度验证了波场TRON如今惊艳的发展成果。研报指出,波场TRON如今每周链上稳定币结算量约为700亿美元,因此就

随着市场经济发展趋向平稳，采用多元化用工模式提升人效，为企业挖掘潜在动力提供了全新的方向，也成为了各行业共同的关注点。根据中国人民大学劳动人事学院(2021年)调研数据显示，已有55%的企业踏上人效提升之旅。而麦肯锡分析也显示，人效提升在激发收入增长的同时，

2023上海国际乐器展览会：Donner 唐农乐器将携多款高科技乐器新品亮相上海国际乐器展

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。

Tags: 显卡服务器

发表评论取消回复

Related News

You may have missed

发表评论 取消回复

Related News

公司快评｜算力租赁概念股汇纳科技涨价公告发微信公号后“秒删”股价仍涨停封板微信公

都是可以先用后买

You may have missed

让用户可以发现、分享和协作各种有价值的GPT集合

用户可以发现、分享和推广最好的GPT模型

公司快评｜算力租赁概念股汇纳科技涨价公告发微信公号后“秒删”股价仍涨停封板微信公

发表评论取消回复