据悉,华为将于8月12日在2025金融AI推理使用落地与开展论坛上,发布AI推理范畴的打破性技能效果。据泄漏,
经过技能创新,进步国内AI大模型的推理功能,使其在实践使用中更高效。这一效果将添补我国AI推理生态的要害部分,推进整个AI工业的开展。
HBM(高带宽内存)是一种高功能的3D堆叠DRAM技能,大范围的使用于AI推理和练习场景,但其本钱比较高且供给受限。经过削减对HBM的依靠,华为可以更好的下降AI推理体系的本钱,进步体系的可扩展性和经济性,使更多企业可以负担得起高功能的AI推理解决方案。
跟着本年DeepSeek来历,大幅度的下降了大模型在端侧落地的门槛,如一些白家电都开端将满血或许蒸馏的大模型落地,要支撑蒸馏的大模型落地就需要功能更好的支撑推理的算力处理器,因为推理功能直接影响到使用的响应速度和使用者实在的体会。可以说,当时推理功能的进步是AI使用落地的要害瓶颈之一,英伟达火急地期望其H20在我国出售,也是因为H20推理功能拔尖,有刚需。
AI推理需频频调用海量模型参数(如千亿级权重)和实时输入数据,HBM的高带宽和大容量答应GPU直接拜访完好模型,可防止传统DDR内存因带宽缺乏导致的算力搁置。关于千亿参数以上的大模型,HBM可显着进步响应速度。当下,HBM已成为高端AI芯片的标配,练习侧浸透率挨近100%,推理侧随模型杂乱化加快遍及。
因为HBM对AI至关重要,因而,美国也特别加强HBM对华出售,依据2024年12月2日发布的新规,美国制止向我国出口HBM2E(第二代HBM的增强版)及以上等级的HBM芯片。不只美国本乡出产的HBM芯片遭到约束,任安在海外出产但使用了美国技能的HBM芯片也遭到出口控制。该禁令于2025年1月2日正式收效。
全球首要的HBM芯片制造商,包含美光(Micron)、三星(Samsung)和SK海力士(SK Hynix),都遭到这一方针的影响。该禁令约束了我国获取高功能HBM芯片的才能,可能对我国的AI工业和高功能核算范畴的开展形成必定阻止。
现在,我国企业和科研机构正在加快HBM技能的自主研制,以削减对进口芯片的依靠并取得了必定的效果。
在这样的大布景下,华为的新效果有望显着进步AI大模型的推理功能,使其可以更高效地处理杂乱的推理使命,然后推进AI在金融、医疗、交通等范畴的广泛使用。华为的这一效果将添补我国AI推理生态的要害部分,进步整个生态的竞争力,促进AI技能的工业化和商业化。
实践上,华为一直在尽力经过技能创新完成算力的打破,2025年4月10日华为在安徽芜湖举行的华为云生态大会2025上正式对外发布了CloudMatrix 384超节点集群,并宣告已在华为云芜湖数据中心完成规划上线国际人工智能大会(WAIC)上,华为初次线超节点(即Atlas 900 A3 SuperPoD)。
CloudMatrix384 选用 全对等互联总线(UB 网络) 技能,根据 Clos 架构完成 384 颗昇腾 NPU 和 192 颗鲲鹏 CPU 的无堵塞高速互联。经过定制化光通讯模块,单卡间单向带宽达 392GB/s(约为传统 RoCE 网络的 15 倍),传输推迟从 10 微秒降至 1 微秒以内。这种架构打破了传统集群的 “南北向带宽瓶颈”,完成数据在芯片间的直接传输,特别合适 MoE 模型中高频 token 分发场景,通讯功率进步 70% 以上。数据显现,
CloudMatrix 384可提供高达300 PFLOPs的BF16算力,挨近英伟达GB200 NVL72体系的两倍。单卡推理吞吐量从每秒600 Token跃升至2300 Token,进步近4倍。这一次,华为又将发布什么打破性技能?咱们拭目而待!