当前位置:数智频道首页 > 人工智能 > 正文

消息称华为即将发布 AI 推理领域突破性成果:降低对 HBM 依赖,提升国内大模型性能

华为计划于8月12日在2025金融AI推理应用落地与发展论坛上发布一项关于AI推理的突破性技术成果。这项成果有望减少中国AI推理对高带宽内存(HBM)技术的依赖,提高国内AI大模型的推理性能,并完善中国的AI推理生态系统。

此前,华为在AI推理领域已有显著进展。2025年3月,北京大学与华为合作推出了DeepSeek全栈开源推理方案。该方案基于北大自主研发的SCOW算力平台系统和鹤思调度系统,结合了DeepSeek、openEuler、MindSpore以及vLLM/RAY等社区开源组件,在华为昇腾平台上实现了高效的DeepSeek推理。

华为昇腾在性能方面也取得了多项成就。例如,在CloudMatrix 384超节点部署DeepSeek V3/R1时,单卡Decode吞吐量在50毫秒延迟约束下达到了1920 Tokens/s;而Atlas 800I A2推理服务器则在100毫秒延迟约束下单卡吞吐量达到808 Tokens/s。

科大讯飞与华为的合作同样成效显著,双方成功在国产算力上实现了MoE模型的大规模跨节点专家并行集群推理,使推理吞吐量提升了3.2倍,同时端到端延迟降低了50%。

热点推送

本周关注

MORE