当前位置:数智频道首页 > 人工智能 > 正文

英伟达开源 Audio2Face 模型:AI 实时生成面部动画,多语言口型同步

9月25日,英伟达发布博文宣布开源生成式AI面部动画模型Audio2Face,包括模型、软件开发工具包(SDK)及完整训练框架。这一技术旨在加速游戏和3D应用中AI智能虚拟角色的开发。

英伟达开源 Audio2Face 模型:AI 实时生成面部动画,多语言口型同步

该技术通过分析音频中的音素、语调等声学特征,实时驱动虚拟角色面部动作,生成精准的口型同步和自然的情感表情,适用于游戏、影视制作和客户服务等领域。Audio2Face支持两种运行模式:预录制音频的离线渲染和动态AI角色的实时流式处理。

英伟达开源 Audio2Face 模型:AI 实时生成面部动画,多语言口型同步

英伟达此次开源了多个核心组件,包括Audio2Face SDK、适用于Autodesk Maya的2.0版本本地执行插件、Unreal Engine 5.5及以上版本的2.5插件、回归模型和扩散模型。开源训练框架还支持开发者使用自有数据微调模型,以适应特定应用场景。

英伟达开源 Audio2Face 模型:AI 实时生成面部动画,多语言口型同步

该技术已获行业广泛采用。例如,游戏开发商Survios在《异形:侠盗入侵进化版》中集成了Audio2Face,简化了口型同步与面部捕捉流程。Farm 51工作室也在《切尔诺贝利人2:禁区》中使用该技术,通过音频直接生成细腻面部动画,节省大量制作时间,提升角色真实感和沉浸体验。创新总监Wojciech Pazdur称此为“革命性突破”。

热点推送

本周关注

MORE