当前位置:数智频道首页 > 人工智能 > 正文

阿里云通义万相 Wan2.2-S2V 视频生成模型宣布开源,一张图即可生成电影级数字人视频

阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V。该模型只需一张静态图片和一段音频,就能生成面部表情自然、口型一致、肢体动作流畅的电影级数字人视频。单次生成的视频时长可达分钟级,有助于提升数字人直播、影视制作、AI教育等行业的视频创作效率。

阿里云通义万相 Wan2.2-S2V 视频生成模型宣布开源,一张图即可生成电影级数字人视频

Wan2.2-S2V 支持真人、卡通、动物、数字人等多种类型图片,并兼容肖像、半身以及全身等不同画幅。上传一段音频后,模型能够使图片中的主体形象完成说话、唱歌和表演等动作。此外,该模型还支持文本控制,输入指令后可以进一步丰富视频画面的内容,让视频主体的运动和背景变化更加多样化。

阿里云通义万相 Wan2.2-S2V 视频生成模型宣布开源,一张图即可生成电影级数字人视频

例如,上传一张人物弹钢琴的照片、一段歌曲和一段文字,Wan2.2-S2V 可以生成一段完整的钢琴演奏视频。视频中的人物形象与原图一致,面部表情和嘴部动作与音频同步,手指的动作、力度和速度也能完美匹配音频节奏。

阿里云通义万相 Wan2.2-S2V 视频生成模型宣布开源,一张图即可生成电影级数字人视频

Wan2.2-S2V 采用了基于通义万相视频生成基础模型的能力,结合了文本引导的全局运动控制和音频驱动的细粒度局部运动,实现了复杂场景下的音频驱动视频生成。同时,引入了 AdaIN 和 CrossAttention 两种控制机制,提高了音频控制的准确性和动态性。为了保障长视频生成效果,Wan2.2-S2V 通过层次化帧压缩技术减少了历史帧的 Token 数量,将 motion frames 的长度扩展到 73 帧,从而实现了稳定的长视频生成。

在模型训练方面,通义团队构建了超过 60 万个片段的音视频数据集,通过混合并行训练进行了全参数化训练,充分挖掘了模型性能。同时,通过多分辨率训练和支持多分辨率推理,满足了不同分辨率场景的视频生成需求,如竖屏短视频和横屏影视剧。

实测数据显示,Wan2.2-S2V 在 FID(视频质量)、EFID(表情真实度)和 CSIM(身份一致性)等核心指标上表现优异,取得了同类模型中的最好成绩。

开源地址如下:

热点推送

本周关注

MORE