AI芯片重磅发布,算力跃升新高度

0 views

全球AI芯片竞赛再升温

随着生成式AI模型参数规模突破万亿级,算力基础设施正面临前所未有的压力。2025年第一季度,全球AI芯片市场迎来新一轮新品发布潮,英伟达、AMD、英特尔以及中国厂商纷纷亮出下一代加速器架构。这些芯片不仅在算力密度上实现跃升,更在内存带宽、互联效率和能效比维度展开了激烈竞争,标志着AI芯片从“单卡性能竞赛”进入“系统级协同优化”的新阶段。行业分析师指出,当前单张GPU的浮点计算能力已接近20PFLOPS(FP8),但模型训练效率的提升更多依赖于芯片间通信瓶颈的突破与异构计算架构的成熟。

英伟达:Blackwell Ultra巩固算力霸主地位

英伟达在2025年GTC大会上正式发布Blackwell Ultra GPU,这是现有Blackwell架构的增强版。Blackwell Ultra采用台积电3nm定制增强工艺,晶体管密度较4nm提升约30%,并首次将HBM4内存集成至GPU基板,单卡显存容量达到384GB,带宽突破8TB/s。在FP8稀疏计算场景下,Blackwell Ultra可提供高达45PFLOPS的峰值性能,较上代Hopper H100提升约4.5倍。更值得关注的是,英伟达同步推出了NVLink 6.0互联技术,单节点支持576颗GPU组成内存统一池,带宽高达1.8TB/s,延迟降低至800纳秒以内。这一设计使得大规模分布式训练中模型并行策略的通信开销显著压缩,千亿级参数模型的训练时间可从数周缩短至数天。英伟达CEO黄仁勋表示,Blackwell Ultra专为“万卡集群”优化,将支撑下一代万亿参数AI模型的迭代。

AMD与英特尔:差异化竞争策略浮出水面

AMD在此轮竞争中并未选择与英伟达正面硬撼峰值算力,而是通过CDNA 4架构强调计算效率与能效比。其最新发布的MI450“Shark”加速器采用Chiplet设计,由4个计算芯粒和2个缓存芯粒拼接而成,算力密度达到与Blackwell Ultra接近的42PFLOPS(FP8),但功耗控制更为激进:在相同算力下,每瓦性能较前代MI350提升约40%。AMD强调MI450对FP4与INT2精度的原生支持,通过精准量化技术降低显存占用量,在推理场景中尤其具有成本优势。英特尔则继续推进Gaudi 3架构的规模化部署,并首次推出面向AI训练与推理的Falcon Shores平台。Falcon Shores采用模块化设计,允许用户根据工作负载自由配置计算单元与内存节点,支持x86与ARM CPU的异构调度。英特尔声称其开放生态模式能让企业以更低总拥有成本(TCO)构建AI基础设施,避免对单一硬件供应商的过度依赖。

定制化芯片:巨头自研路径深化与创新

科技巨头自研AI芯片的趋势在2025年进一步加速。谷歌推出第七代张量处理单元TPU v7,专为海量推理任务设计,首次集成片上HBM4栈与光互联I/O,单颗芯片推理吞吐量较TPU v6提升3倍,但刻意压低绝对精度以换取更高的吞吐密度。亚马逊AWS则发布了Trainium3定制芯片,采用5nm工艺,针对Transformer模型中多头注意力机制执行专门的数据流架构优化,在LLaMA-2类模型推理中能效是NVIDIA H100的2.3倍。与此同时,中国芯片企业在制裁环境下走出独特路径:华为昇腾910C采用超异构计算架构,将达芬奇AI核心与通用CPU核心融合,并通过自研的CANN计算库实现与PyTorch、MindSpore等框架的深度适配;寒武纪思元590系列在金融风控、智能驾驶等垂直场景中展现出竞争力。这些定制化芯片虽然在通用生态上难以匹敌英伟达CUDA,但在特定业务场景中的成本效率逐渐形成差异化优势。

制程与封装:瓶颈突破的关键方向

当前AI芯片的算力竞赛已无法单纯依赖摩尔定律,制程微缩的红利趋于饱和。台积电与三星在3nm、2nm制程上的进展成为高性能芯片的基础,但更大瓶颈在于先进封装与高带宽内存(HBM)的供应。Blackwell Ultra与MI450均依赖CoWoS-L或Foveros封装技术,通过硅中介层连接多个计算芯粒、缓存芯粒及HBM4堆栈,实现内部带宽超过100TB/s。然而HBM4的生产良率仍不稳定,SK海力士、三星与美光的产能争夺日趋激烈,部分云厂商已开始投资定制化内存方案以降低对标准HBM供应链的依赖。业界普遍预测,到2026年,AI芯片将全面进入“异构集成”时代,即在同一封装内集成逻辑计算、内存、光电互联乃至光子计算模块,以突破传统冯·诺依曼架构的数据搬运瓶颈。