当前位置:数智频道首页 > 人工智能 > 正文

看穿大模型的“小心思”:阿里千问开源可解释性模块 Qwen-Scope

阿里千问宣布推出Qwen-Scope,这是一个基于Qwen3系列和Qwen3.5系列模型训练所得的可解释性模块。通过在Qwen隐藏层插入稀疏自编码器(SAE)并加以训练,施加稀疏性约束,自动提取出高度解耦、低冗余且更具可解释性的隐藏空间特征。Qwen-Scope不仅有助于分析Qwen模型行为的内在机制,还在模型优化方面具有巨大潜力,应用场景包括推理结果定向控制、数据分类与合成、模型训练与优化以及评估样本分布分析与对比等。

Qwen-Scope的核心亮点在于它能够在不显示给出自然语言指令的情况下实现推理结果定向控制;仅需少量种子数据便可收集用于数据分类的特征,显著降低数据依赖,同时可以使用未激活特征信息定向构造数据,补足长尾能力;通过分析语言混用和重复生成等低错问题,定位异常激活特征,在监督微调和强化学习阶段辅助模型训练,降低此类回复出现频率;计算不同样本间或不同评测集间特征激活模式,联合判断评测冗余程度,指导挑选评测集、提升评测能力覆盖度、降低评测成本。

本次开源的权重涉及7个大模型,覆盖Qwen3及Qwen3.5系列的稠密模型和混合专家模型,共有14组稀疏自编码器权重。为了使稀疏自编码器特征分布广、语义含义强、训练过程稳定可靠,从对应模型的预训练数据中采样了0.5B词元数据规模进行训练。

借助Qwen-Scope,用户可以对Qwen系列模型进行分析和开发。例如,在推理方面,通过控制特征的激活,实现对推理结果如语言、实体、风格的定向修改。在数据处理上,Qwen-Scope能够解析和归纳模型表示,作为数据处理工具,在数据分类和数据合成上提供思路。对于毒性数据分类场景,基于少量种子数据即可分析毒性样本在SAE特征上的激活模式,并筛选出与毒性高度相关的特征用于分类,无需额外训练分类器,降低了标注和训练成本。在数据合成场景中,Qwen-Scope可以帮助识别已有数据中激活次数少甚至未激活的毒性文本特征,并定向合成补充样本,相比传统方法提高了效率。

在训练阶段,Qwen-Scope可用于解决语言混用和重复生成等问题。当发现模型存在语言混用现象时,可以定位到异常激活特征,并在监督微调阶段设计损失函数以减少badcase的出现频率。针对重复生成这种低频现象,可以通过控制相应特征提高异常回复的采样频率,增加学习奖励密度,从而在强化学习阶段充分优化这一问题。

此外,Qwen-Scope还支持评估测试样本的缺失与冗余情况。通过对测试集的特征覆盖度进行分析,可以判断不同评测集之间的评测冗余程度,帮助选择覆盖度更高、评测成本更低的测试样本和评测集。

Qwen-Scope不仅能够“看懂”模型,还能“改进”模型,为模型优化提供思路和方向。实践证明,它可以在推理、评估、数据、训练等多个阶段发挥作用,成为驱动模型进化的重要引擎之一。欢迎社区反馈,并期待看到更多创新有趣的用法。大家可以通过Huggingface或魔搭体验Qwen-Scope。

热点推送

本周关注

MORE