当前位置:数智频道首页 > 人工智能 > 正文

苹果联合中国人民大学发布 VSSFlow 模型:无声视频 AI 同步生成音效与配音

苹果公司与中国人民大学合作推出了一种名为VSSFlow的新型AI模型。该模型能够从无声视频中同时生成逼真的环境音效和人类语音,突破了传统音频生成技术的局限。VSSFlow的核心优势在于它能够在单一系统框架下直接处理无声视频数据,并同步生成与画面高度匹配的声音。

苹果联合中国人民大学发布 VSSFlow 模型:无声视频 AI 同步生成音效与配音

在VSSFlow出现之前,行业内的音频生成模型往往存在功能单一的问题。例如,视频转声音模型难以生成清晰的语音,而文本转语音模型又无法有效处理复杂的环境噪音。传统方法通常需要分阶段训练这两种模型,这不仅增加了系统的复杂性,还可能导致性能下降。VSSFlow采用10层架构设计并引入“流匹配”技术,使模型能够自主学习如何从随机噪声中重构出目标声音信号。

苹果联合中国人民大学发布 VSSFlow 模型:无声视频 AI 同步生成音效与配音

研究团队发现,在联合训练过程中,语音数据的训练提升了音效生成的质量,而音效数据的加入也优化了语音的表现。为了实现这一效果,团队向模型提供了混合数据集,包括配有环境音的视频、配有字幕的说话视频以及纯文本转语音数据,并通过合成样本对模型进行了微调,使其能够同时输出背景音与人声。

苹果联合中国人民大学发布 VSSFlow 模型:无声视频 AI 同步生成音效与配音

实际运行时,VSSFlow以每秒10帧的频率从视频中提取视觉线索来塑造环境音效,同时依据文本脚本精确引导语音生成。测试结果显示,该模型在多项关键指标上均优于专门针对单一任务设计的竞品模型。目前,研究团队已在GitHub上开源了VSSFlow的代码,并正在推进模型权重公开及在线推理演示的开发工作。

热点推送

本周关注

MORE