2024年9月20日

“成千上万”太小,“成万上亿”也已经是昨日黄花,现在的世界记录是:美国Micron(美光)公司的2T闪存芯片NAND,单芯片上的晶体管数量达到了

写成一串数字是 5。如果按每个晶体管1分钱计算,这块芯片可卖530亿元。但现在2T的固态存储不到2000元。

摩尔定律是飞兆半导体公司和英特尔联合创始人戈登·摩尔在1965年提出的,表述为:微芯片上的晶体管数量每两年翻一番。

集成电路(IC)大概在1959年发明。1960年代逐渐进入商用。第一个商用MOS集成电路是由通用微电子公司于1964年推出的移位寄存器芯片,由120个晶体管组成。

美国阿波罗登月计划极大地促进了集成电路的发展,毕竟去往月球的运载成本不菲,每克重量都要精打细算。

现在,几乎所有现代IC都是金属-氧化物-半导体(MOS)集成电路,由MOSFET(金属-氧化物-硅场效应晶体管)组成。

这张图来自戴尔公司,显示了晶体管密度的指数增长,以及从1970年到今天的性能、时钟速度、功耗和逻辑核心计数的状态。你可以看到摩尔的晶体管数预测仍然有效,即使2005年左右出现了工作频率和功率限制(绿色和红色横线),当时要冷却运行速度超过5GHz的超密度硅芯片IC已变得不切实际。

芯片密度随着下一代7-10nm甚至3-5nm集成电路的出现而继续增加。一般来说,芯片上的晶体管越多,意味着每秒的并行操作就越多。随着处理能力的增加(尽管不是指数级的),以及功耗(热量)保持相对恒定,额外的晶体管主要通过更多的核心和更大的缓存来获得更高的性能。

更先进细微的制程提供了更高的密度,下图显示了单个晶体管(FINFET是鳍式场效应晶体管,也就是3D晶体管)制程的大小变化。

芯片按其结构和功能,大致可以分为【存储器芯片】、【处理器芯片(CPU)】、【图形处理芯片(GPU)】和【现场可编程门阵列( FPGA)】四大类。下面先来看看它们的龙头老大——5.3万亿晶体管的存储芯片。

世界记录是2022年Micron(美光)公司的NAND闪存芯片,2 TB容量、3D-stacked结构、16芯232层堆叠,集成了5.3万亿个浮栅型MOSwFET晶体管(每个晶体管可存储3位2进制数据)!

美光于2020年宣布推出首款176层3D NAND,确立了NAND技术的领先地位。再凭借新一代232层NAND技术达到了全球第一,凭此在可用性和商业增长上扩大了领导地位。

232层的结构,建筑在金光闪闪的硅片上。不要以为232层的能够产生肉眼可见的高度(芯片厚度),要知道它们纳米微结构。

该NAND芯片具有业界最快的2.4 GB/秒(GB/s)的I/O(输入输出)速度,可满足以数据为中心的工作负载(如人工智能、非结构化数据库、实时分析和云计算)的低延迟和高吞吐量要求。当然,手机和笔记本应用更不在线D立体空间构筑更多的层数是存储芯片发展的必然趋势,当城市空间变得拥挤不堪时,人们想到的也是建造高层或超高层建筑。

堆叠产生的效应包括更高的密度、更快的存取速度、更小的封装尺寸。这是可想而知的结果,原因在于存储单元之间的距离更近,从而连线更短。同时技术难度也增加了。

存储芯片的单元单一性,可以使用更多层数堆叠的技术路线,但对于CPU和GPU来说,无法向“高空”发展,除了发展5-3纳米甚至更小的制程,人们更多采用“多核心”或“大面积”的方法来向单芯片中塞入更多的晶体管。

WSE-2是其第2代产品。它在整个晶圆上直接加工 84 个裸露区域(芯片),形成12*7的芯片阵列,共计拥有2.6万亿

然而,这是需求和技术的结果。类似人工智能的爆发式的计算量,目前还是要依赖由大量高性能服务器主机组成的计算集群,如果将多台服务器的计算能力整合到一个芯片,内部的信号传输速度将远远超过主机之间的传输,从而获得更高的计算性能。

晶圆引擎WSE芯片就是这样做的。同时,它也解决了一个业内的“痛点”问题:使用集群服务器进行AI计算,通常需要几十到数百个工程小时进行编程以扩展深度学习。而WSE提供了一个集群级芯片的AI计算资源,人们只需一台台式机即可轻松编程,从而把时间花在人工智能发现上,而不是集群工程上。

Cerebras 遇到的技术挑战不仅是制造这块超级芯片,在用该芯片制造主机时,他们也遇到了供电和散热等方面的巨大的挑战。由此构造的主机也是一台名符其实的“超级电脑”,它被命名为:Cerebras Cs-2 。

CPU芯片是耗电大户,超级芯片更是,Cerebras Cs-2主机的峰值功率高达23千瓦,相当于4个家庭的用电。因此配置了强大的供电和散热模组,让它看上去更像汽车的“发动机总成”。

芯片左边是电压需求器模组,12个热插拨电源为该模组供电,产生不到1V的芯片电压,但峰值电流可达2万安培。右边是冷却模组。

单台 CS-2 “冰箱”通常可提供数十到数百个图形处理单元 (GPU) 或更多的计算性能。CS-2 可以在几分钟或几小时内提供答案的问题,在传统的通用处理器的大型多机架集群上可能需要几天、几周或更长时间。

如果需要更强的计算能力,那就将多台Cs-2 组合成集群,那就是Cerebras 的仙女座(Andromeda)人工智能超级计算机 ,有史以来最大的 AI 超级计算机之一,集合了1350万个内核,浮点运算能力超过 1 Exa flops (1Exa=

“仙女座”是在大型语言模型工作负载上表现出近乎完美线性扩展的人工智能超级计算机,而且使用起来极其简单。

800 亿个 MOSFET。不算那片骨骼清奇的WSE-2,它是目前晶体管数量最多的单芯片GPU,采用台积电的 N4 工艺制造,算力是A100的十倍!>

在消费类微处理器中,晶体管数量排名第一是Apple的双芯片M1 Ultra片上系统,共集成1140亿个晶体管,

所谓片上系统,即SoC,是将计算机或电子设备的多个组件(例如 CPU、GPU、内存和输入/输出接口)集成在单个封装中的芯片。

下图列出了每块晶圆能够切割出不同芯片的数量,可见M1 Max芯片面积最大,只能切割136片,晶圆的利用率也最低,仅67%,价格自然就最贵了。

是英特尔公司2023年1月推出的最新最先进的处理器,晶体管数量480亿,排名在苹果M1和M2之后 。

>

采用socket 4677接口,也就是芯片背面有4677个引脚。这将为大容量内存提供更高速的宽带传输能力,从而提升系统性能。

芯片核心布局如下,它是一个4合1的设计,使用EMIB(嵌入式多径互连桥,图中紫色部分)链接将其统一为一个整体芯片。每小块拥有15个CPU核,因此处理器最多有60个内核。

现场可编程门阵列( FPGA) 是一种特殊的集成电路,用于在制造后由客户或设计人员进行配置。

Xilinx是一家主要提供可编程逻辑器件的美国技术和半导体公司。该公司以发明第一个商业上可行的现场可编程门阵列(FPGA) 和创建第一个无晶圆厂制造模型而闻名。

以上介绍了4类芯片晶体管数量排名第一的产品,可以想见,这些记录不会保持很久。受西方技术封锁和产品禁售,我国芯片发展之路十分艰难,过份自信属于自欺欺人,盲目悲观也会一事无成,一方面要创新自强,一方面要改善引进环境。

现在,一块小小的芯片能集成惊天地泣鬼神的万亿级别的晶体管,未来随着3纳米-1纳米制程的实现,又不知道要发展到什么程度,特别是在此基础上人工智能的发展,已经让大脑无法想象了。然而,它们又都是人类大脑的产物!

发表评论

邮箱地址不会被公开。 必填项已用*标注