编译/VR陀螺
近日,谷歌Deepmind发布Genie 3,这是一个世界模型,可根据文本提示生成实时交互的3D视频流。
初代Genie于2024年初发布,能够以256×256的分辨率生成2D横向卷轴游戏,但该模型稳定性不佳,只能稳定运行几十帧、几秒的内容。随后Genie 2于去年12月发布,此时它已经能够生成3D世界模型,这就像是一款3D游戏,玩家可以基于鼠标和键盘操纵人物在场景里面进行探索。不过当时该版本输出的世界比较模糊,同时细节也较少。
相比之下,Genie 3是一个巨大的飞跃,它以720p 24fps的速度输出高度逼真的图形,环境在1 分钟内能保持完全一致,并在几分钟内保持“基本”一致。值得一提的是,Genie 3生成的虚拟世界已经非常趋近真实世界,如门可以打开,运动的物体具有真实的动态阴影,水面扰动时也会产生水花、涟漪之类的特效。
此外,Genie 3还增加了对“可提示的世界事件”的支持,如能够改变天气、添加新物体和角色等。谷歌透露, Genie 3的端到端控制延迟为50毫秒,已经非常接近24 fps平板游戏的理论最低延迟41.67毫秒。
不过,Genie 3目前还存在不少局限,如无法模拟多个独立智能体之间的复杂交互,无法以完美的地理精度模拟真实世界的位置,而且通常只有在文本提示中明确提供才能生成清晰易读的文本。谷歌将这些问题描述为“持续的研究挑战”。
来源:UploadVR
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息