当前位置:数智频道首页 > 产业+ > 正文

蚂蚁集团已部署万卡规模国产算力群,训练与推理性能可媲美国际算力集群

在2025年世界互联网大会·乌镇峰会前沿人工智能模型论坛上,蚂蚁集团平台技术事业群总裁骆骥宣布,蚂蚁已部署万卡规模的国产算力集群,适配自研与各主流开源模型。训练任务稳定性超过98%,性能可媲美国际算力集群,并全面应用于安全风控领域的大模型训练与推理服务。

今年3月,蚂蚁集团Ling团队在预印版Arxiv平台发表论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》,推出两款不同规模的MoE(混合专家)大语言模型——百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus),并提出一系列创新方法,在低性能硬件上高效训练大模型,显著降低成本。

实验显示,3000亿参数的MoE大模型可在使用国产GPU的低性能设备上完成高效训练,性能与完全使用英伟达芯片、同规模的稠密模型及MoE模型相当。

目前,MoE模型训练通常依赖英伟达H100/H800等高性能GPU,成本高昂且芯片短缺,限制了其在资源受限环境中的应用。蚂蚁集团Ling团队通过创新训练策略,突破资源与预算限制。具体策略包括架构与训练策略革新,采用动态参数分配与混合精度调度技术;升级训练异常处理机制,自适应容错恢复系统缩短中断响应时间;优化模型评估流程,自动化评测框架压缩验证周期超50%;提升工具调用能力,基于知识图谱的指令微调提高复杂任务执行精度。

热点推送

本周关注

MORE