新世代AI芯片集中放量:从算力竞赛走向能效与生态重塑
2024年第三季度以来,全球AI芯片市场迎来新一轮密集发布周期。英伟达、AMD、英特尔以及多家中国本土厂商相继推出针对大模型训练与推理的新一代产品。与去年单纯追求峰值算力的竞赛不同,当前这批芯片在设计哲学上呈现出鲜明的三个转向:面向更大规模模型的显存带宽突破、从“暴力算力”向“每瓦性能”的系统级优化,以及围绕开放生态与定制化架构的深度博弈。这些变化背后,折射出人工智能基础设施正在从“能用”向“好用”与“可持续”进行结构性升级。
架构创新:从通用计算到领域专用计算的加速演进
典型代表是英伟达在GTC 2024上发布的Blackwell架构B200芯片。其采用两个独立die通过高速NVLink互连,集成了2080亿个晶体管,并首次引入第二代Transformer Engine与FP4浮点精度支持。这种设计直接针对大语言模型Transformer架构的矩阵运算特点,将训练性能较上代Hopper提升约60%,而推理吞吐量提升幅度更达到2.5倍以上。与英伟达保持通用GPU路线不同,AMD的MI300X则采用3D Chiplet + Infinity Cache混合架构,将CPU与GPU核心集成于同一封装,通过统一内存架构(HBM3容量高达192GB)减少数据搬运开销,在运行Llama 3 70B等大模型时延迟降低30%。英特尔这边,Gaudi 3放弃了传统GPU设计,转而使用专门的矩阵乘法引擎(MME)与张量处理器核心组合,并融入以太网络集成方案,主打低成本、低功耗的推理场景。
值得注意的是,中国AI芯片企业也在架构上加速突围。以华为昇腾910B和寒武纪思元590为代表的产品,通过自研达芬奇架构(华为)与MLUv06架构(寒武纪),在保持对Transformer算子原生支持的同时,将能效比提升至接近国际主流水平。尤其华为最新的CANN 8.0软件栈实现了对PyTorch框架的深度适配,使得开发者迁移成本大幅降低。这些信号表明,AI芯片的竞争已从单纯的硬件参数比拼,全面转向“架构-生态”的立体角力。
显存与带宽:突破大模型“记忆瓶颈”的核心战役
大模型参数从千亿级向万亿级跃进,训练和推理过程中显存容量与带宽成为关键瓶颈。英伟达H200升级为141GB HBM3e,带宽达4.8TB/s,但B200进一步将HBM3e容量提升至192GB,同时引入NVLink 5.0使芯片间通信带宽达到1.8TB/s。AMD MI300X则更为激进,直接搭载192GB HBM3显存,配合统一内存架构可以几乎无折损地加载Llama 3 70B这类全精度模型。英特尔Gaudi 3采用24颗HBM2e,总容量128GB,带宽3.6TB/s,虽然绝对值低于前两者,但通过集成在网络侧的内存直接访问能力,实现了分布式推理场景下的高效共享。
对于中国芯片企业,受限于国际出口管制,HBM3E等先进存储器的获取困难,导致Hao7、晟腾等产品仍主要使用HBM2e或自研HBM方案。但一种新的策略正在浮现:通过增大片上SRAM缓存并优化数据流调度,降低对片外带宽的依赖。例如燧原科技最新的“驭算T21”芯片就将片上SRAM扩大到64MB,配合精心设计的流水线预取方案,在ResNet-50等经典模型上的推论能效比提升了40%。这暗示着在外部存储约束下,中国AI芯片正在探索“存算一体+缓存优化”的独特路径。
能效比:从摩尔定律的终结到每瓦性能的觉醒
过去两年AI训练集群的电力需求已引发行业警觉——OpenAI官方曾披露GPT-4训练耗电约2.4亿度,而一座万卡集群的年电费可能超过芯片本身成本。因此,本次新品发布中几乎所有厂商都以“每瓦特算力”作为核心卖点。英伟达凭借台积电4NP制程与计算光刻技术,B200在保持50%以上性能提升的同时,功耗仅增加20%,能做到单瓦16.5万亿次浮点运算(FP8)。AMD采用Chiplet技术将大芯片解构为多个小芯片,利用2.5D/3D封装与先进中介层降低信号损耗,MI300X的能效比相较MI250X提升约2.3倍。英特尔Gaudi 3则直接放弃超高精度浮点支持,专注INT8与BF16,使其在推理场景下的每瓦性能达到了英伟达H100的1.6倍。这种差异化的能效策略,正在催生“推理专用芯片”市场的进一步分裂。
更前沿的尝试来自光子芯片与存算一体技术。虽然尚未达到规模化商用,但曦智科技发布的首款光子AI芯片“Lightelligence”在特定稀疏模型推理中实现了每瓦FLOPS较电子芯片高两个数量级的理论潜力。尽管受限于制造良率与软件生态,这类探索已经给行业指出了跨越能效鸿沟的另一种可能。
软件生态:护城河与鸿沟的再次拉大
硬件决定下限,软件决定上限。英伟达CUDA生态的护城河依旧深厚——其目前拥有超过500万开发者,覆盖PyTorch、JAX、TensorFlow等主流框架,且有大量企业级工具(如TensorRT、NeMo)进行优化配合。但挑战者正在瓦解这部分壁垒。AMD推出了ROCm 6.1版本,实现了对PyTorch 2.2的完全兼容,并提供了类似CUDA Graphs的加速机制。英特尔更是联合Hugging Face推出了基于Gaudi 3的Optimum-Intel库,让开发者仅需修改一两行代码即可切换推理引擎。国内方面,华为昇腾构建了CANN计算框架,并与百度飞桨、MindSpore等中国框架深度耦合,在政务、运营商等垂直场景中形成闭环。
一个值得关注的趋势是,OpenAI和Meta等大模型厂商开始直接下场参与芯片定制。OpenAI据传正与博通、台积电合作开发自研协处理器(DLA),专用于Transformer的注意力计算模块。这虽然不一定形成直接竞争,但会加速芯片厂商与模型厂家之间的“绑定”——未来的AI芯片成功与否,可能关键不在纸面算力,而在于能否快速适配下一个基础模型的独有算子。
未来展望:AI芯片进入“分形演进”时代
综合来看,当前AI芯片新品正经历一场深刻的结构性重组:异构计算从口号变成标配,专用加速单元(如Tensor Core、Matrix Engine)开始细分为面向训练、推理、边缘端的不同子架构;互联技术(NVLink、Infinity Fabric、以太网)的重要性首次超过计算核心本身,因为分布式训练中数据通信往往消耗总时间的20%-50%;与此同时,制程红利逼近物理极限,3D封装与Chiplet成为延续性能增长的主要手段。
可以预期,未来12个月大模型参数将达到10万亿级别,而用户对于实时推理(如Agent类应用)的延迟要求将降至毫秒级。这迫使芯片设计必须从“性能优先”转向“系统级平衡”——显存、带宽、能效、软件栈、互联这五个要素需要作为一个有机整体被重新思考。在此过程中,那些能够最先实现“硬件-算法-软件”协同优化的厂商,将在下一轮AI基础设施竞赛中占据先机。而国产AI芯片若能借自主可控机遇,在特定垂直领域(如智能驾驶、边缘计算)率先形成“硬件+框架+模型”的闭环,同样有望在全球多元化的市场中找到增长支点。
