当前位置:数智频道首页 > 人工智能 > 正文

华为开源 SINQ AI 量化技术:显存占用最高削减 70%,单张 RTX 4090 能干 A100 的活

华为苏黎世计算系统实验室于9月26日发布了一项全新开源量化技术SINQ(Sinkhorn归一化量化),旨在大幅降低大语言模型的显存需求与运行成本。这项技术无需复杂的校准过程,可直接集成至现有工作流,并且其代码已通过Apache 2.0许可证在GitHub和Hugging Face上开放,允许任何组织免费使用、修改和商业化部署。

华为开源 SINQ AI 量化技术:显存占用最高削减 70%,单张 RTX 4090 能干 A100 的活

SINQ的核心优势在于其卓越的压缩性能。根据测试,该技术能将不同规模模型的显存占用普遍削减60%至70%。这意味着,过去需要超过60GB显存才能运行的大型模型,现在仅需约20GB的环境即可部署。此前需要企业级GPU(如英伟达A100 80GB或H100)计算的任务,现在仅用一张售价约1600美元的消费级显卡(如英伟达RTX 4090)便可胜任。对于云端用户而言,每小时的算力成本也随之锐减。

华为开源 SINQ AI 量化技术:显存占用最高削减 70%,单张 RTX 4090 能干 A100 的活

SINQ通过两大创新实现了性能突破。它采用“双轴采样”策略,替代了传统的单尺度因子量化,通过分别为矩阵的行和列设置独立的缩放向量,更灵活地分散量化误差,有效抑制了异常值的影响。此外,SINQ引入了一种受Sinkhorn迭代启发的快速归一化算法,用于平衡矩阵行列的标准差,从而最小化“矩阵不平衡”现象,提升了量化后的模型精度。

华为开源 SINQ AI 量化技术:显存占用最高削减 70%,单张 RTX 4090 能干 A100 的活

在性能评估中,SINQ的表现全面超越了多种主流的免校准量化方法(如RTN、HQQ)。在处理Qwen3、LLaMA等多种主流模型时,SINQ在WikiText2等标准测试集上显著降低了模型的困惑度,其性能表现接近甚至达到了需要数据校准的方案水平。SINQ的量化速度也极快,比HQQ快约2倍,更是比AWQ快30倍以上,充分满足了研究与生产环境中对效率的严苛要求。

华为开源 SINQ AI 量化技术:显存占用最高削减 70%,单张 RTX 4090 能干 A100 的活

量化是一种模型压缩技术,通过降低模型内部数据的精度来减小其体积和显存占用,类似于将一张高精度的照片转换为文件更小但肉眼看差别不大的普通照片,从而让模型运行得更快、更省资源。困惑度是评估语言模型性能的常用指标,衡量的是模型对于一段新文本的“惊讶”或“不确定”程度。困惑度越低,表示模型对文本的预测越准确,语言能力越强。

华为开源 SINQ AI 量化技术:显存占用最高削减 70%,单张 RTX 4090 能干 A100 的活

热点推送

本周关注

MORE