当前位置:数智频道首页 > 人工智能 > 正文

摩尔线程大模型对齐研究获国际顶级学术会议认可:URPO 框架入选 AAAI 2026

摩尔线程提出了一种新的大语言模型对齐框架——URPO统一奖励与策略优化。该研究论文已被人工智能领域的国际顶级学术会议AAAI 2026收录,为简化大模型训练流程和突破模型性能上限提供了全新的技术路径。

摩尔线程大模型对齐研究获国际顶级学术会议认可:URPO 框架入选 AAAI 2026

在题为《URPO: A Unified Reward & Policy Optimization Framework for Large Language Models》的论文中,摩尔线程AI研究团队提出了URPO统一奖励与策略优化框架,将“指令遵循”和“奖励评判”两大角色融合于单一模型中,并在统一训练阶段实现同步优化。URPO从三个方面攻克技术挑战:数据格式统一、自我奖励循环和协同进化机制。

数据格式统一方面,URPO将异构的偏好数据、可验证推理数据和开放式指令数据重构为适用于GRPO训练的信号格式。自我奖励循环方面,对于开放式指令,模型生成多个候选回答后,自主调用其“裁判”角色进行评分,并将结果作为GRPO训练的奖励信号,形成一个高效的自我改进循环。协同进化机制方面,通过在同一批次中混合处理三类数据,模型的生成能力与评判能力得以协同进化。生成能力提升带动评判更精准,而精准评判进一步引导生成质量跃升,从而突破静态奖励模型的性能瓶颈。

实验结果显示,基于Qwen2.5-7B模型,URPO框架超越依赖独立奖励模型的传统基线。在AlpacaEval指令跟随榜单上,得分从42.24提升至44.84;在综合推理能力测试中,平均分从32.66提升至35.66。此外,该模型内部自然涌现出的评判能力在RewardBench奖励模型评测中取得85.15的高分,表现优于其替代的专用奖励模型(83.55分)。

目前,URPO已在摩尔线程自研计算卡上实现稳定高效运行,并已完成VERL等主流强化学习框架的深度适配。

热点推送

本周关注

MORE