当前位置:数智频道首页 > 手机数码 > 正文

iPhone 上实现更快 AI 响应:苹果创新 MTP 技术,不牺牲质量模型输出速度最高提升 5 倍

苹果在最新研究中提出了一种名为“多 token 预测”(MTP)的技术,可以在不牺牲输出质量的情况下,将大语言模型的响应速度提升2到3倍,在某些特定场景下甚至可以达到5倍。传统的大语言模型采用自回归方式生成文本,逐个输出token,每一步都依赖前序内容,以保证连贯性。例如生成“The cat is black”时,模型需要在输出“is”后,基于上下文和训练经验从词汇表中计算“black”等候选词的概率,再选择最合适的词。这种串行机制虽然准确,但速度受限,特别是在移动设备上会影响用户体验。

iPhone 上实现更快 AI 响应:苹果创新 MTP 技术,不牺牲质量模型输出速度最高提升 5 倍

苹果的新论文《Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential》揭示了尽管模型仅被训练为预测下一个词,其内部其实蕴含对后续多个词的潜在判断能力。研究团队据此提出了“多 token 预测”框架,支持模型一次生成多个词。比如输入“The cat is ”,模型可以直接输出“very fluffy”,从而大幅提升生成效率。

iPhone 上实现更快 AI 响应:苹果创新 MTP 技术,不牺牲质量模型输出速度最高提升 5 倍

该技术的核心在于引入“掩码”(Mask)token作为占位符,并让模型并行推测后续多个词。每个推测结果会立即与标准自回归解码结果比对,若不符则自动回退到逐词生成模式,确保输出质量不受影响。“推测-验证”机制既提高了速度也保留了准确性。实验基于开源模型Tulu3-8B进行,结果显示,在问答和对话等通用任务中,响应速度平均提升2至3倍;在代码生成、数学推理等结构化场景中,提速可达5倍。

性能提升的关键在于采用了“门控LoRA适配”技术,动态调节参数,仅在必要时激活推测模块。这项研究为设备端大模型部署提供了新路径,相比依赖云端计算,MTP可以在iPhone、Mac等本地设备上实现更快响应,降低延迟与能耗。虽然目前仍处于研究阶段,但由于其兼容现有模型架构的特点,未来可能集成至Siri、Apple Intelligence等产品中,以提升用户交互体验。

热点推送

本周关注

MORE