这份名为《A Deep Learning Approach for Generalized Speech Animation》的研究报告由迪士尼研究所、加拿大东加利福尼亚理工大学和卡内基梅隆大学的研究人员发表,描述了一种已经用“深度学习/神经网络”方法训练的系统,通过单个扬声器8小时的参考画面(2543句),教导系统根据不同的语音单元(称为音素)配合生成不同嘴型及其组合。
这一训练系统之后还可以被用来分析任何说话者的音频,并且自动生成嘴部的形状,然后应用到动画中。
创建与CGI字符的音频记录相匹配的语音动画通常由熟练的动画师手工完成。 虽然这个系统不能满足主要CGI制作的高保真语音动画,但它肯定可以用作这样的制作中的自动化首播,或者用于在可能的地方添加可传递的语音动画,比如在大型RPG游戏中的NPC对话上,以及那些没有预算聘请动画师的项目。
在VR中,系统可以用于通过在用户说话时实时化地实现虚拟形象的嘴部运动,使社交VR形象更逼真。 真正的嘴部跟踪(光学等)是用于虚拟形象的语音的最准确的方法,但是在口部跟踪硬件变得普遍之前,像这样的程序语音动画系统可以成为权宜之计。
关注微信公众号:VR陀螺(vrtuoluo),定时推送,VR/AR行业干货分享、爆料揭秘、互动精彩多。
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息