9月2日,腾讯混元正式发布并开源业界首个支持原生3D重建的超长漫游世界模型————HunyuanWorld-Voyager(混元Voyager)。该模型聚焦AI在空间智能领域的应用扩展,在相关测试中成绩优异,相关技术报告已公开,源代码也在GitHub和Hugging Face上免费开放。
混元Voyager的重要特性
混元Voyager聚焦于AI在空间智能领域的应用扩展,将为虚拟现实、物理仿真、游戏开发等领域提供高保真的3D场景漫游能力。它突破了传统视频生成在空间一致性和探索范围上的局限,能够生成长距离、世界一致的漫游场景,支持将视频直接导出为3D格式。其3D输入 - 3D输出的特性,与此前已开源的混元世界模型1.0高度适配,可进一步扩展1.0模型漫游范围,提升复杂场景的生成质量,并可对生成的场景做风格化控制和编辑。此外,还可支持视频场景重建、3D物体纹理生成、视频风格定制化生成、视频深度估计等多种3D理解与生成应用。
混元Voyager的技术创新
混元Voyager框架创新性地将场景深度预测引入视频生成过程,融合了视频生成与3D建模优势,基于相机可控的视频生成技术,从初始场景视图和用户指定相机轨迹中,合成可自由控制视角、空间连贯的RGB - D视频(包含RGB图像和深度信息的点云视频)。用户可通过键盘或者摇杆控制生成对应的视频画面,并通过3D空间记忆保持画面的高度一致性,实现与可交互视频模型如Genie3等相同的功能。同时,Voyager还支持将生成视频无损导出3D点云,无需依赖COLMAP等额外重建工具。它首次通过空间与特征结合的方式,支持原生的3D记忆和场景重建,避免传统后处理带来的延迟和精度损失。在输入端加入3D条件保证画面视角精准,输出端直接生成3D点云,适配多种应用场景。另外,还引入了可扩展的世界缓存机制,基于1.0模型生成的初始3D点云缓存,将其投影到目标相机视图,为扩散模型提供指导,生成的视频帧实时更新缓存,形成闭环系统,支持任意相机轨迹,维持几何一致性。
混元Voyager的成绩表现
该模型在斯坦福大学李飞飞团队发布的世界模型基准测试WorldScore上位居综合能力首位,超越现有开源方法,在视频生成和3D重建任务中均表现出色。在视频生成和视频3D重建两个任务上,Voyager也均取得更好的结果。与现有开源方法比较,HunyuanWorld - Voyager可重建出更加精确的3DGS场景。
腾讯混元的开源进程
腾讯混元世界模型系列开源正不断加速。7月,混元3D世界模型1.0发布并开源,成为业界首个兼容传统CG管线的可漫游世界生成模型。8月,推出1.0 Lite版,降低显存需求,支持消费级显卡部署。仅两周后,针对遮挡视图和探索范围限制,推出超长漫游世界模型Voyager。此前,混元已陆续开源业界领先的文生图、视频生成和3D生成能力,提供接近商业模型性能的开源模型,混元3D系列开源模型下载量位居开源社区榜首。在基础模型方面,混元开源了MoE架构的代表性模型混元large、混合推理模型Hunyuan - A13B,以及多个面向端侧场景的小尺寸模型,最小仅0.5B参数。最新开源的翻译模型Hunyuan - MT - 7B,在国际翻译比赛中斩获31个语种中的30项冠军。
以上文章由 AI 总结生成