近日,字节跳动重磅推出视频生成模型OmniHuman - 1.5,其创新地融合多模态大语言模型与扩散Transformer架构,模拟独特思维模式,实现了超一分钟的动态视频生成,展现出流畅镜头运动、复杂多角色互动等精彩表现。
创新架构融合独特思维模式
OmniHuman - 1.5模型架构具有创新性,它将多模态大语言模型与扩散Transformer相结合,从而模拟出两种不同思维模式,即缓慢深思的规划与迅捷直觉的反应。
实现高质量长视频生成
凭借两种思维模式结合产生的强大协同效应,OmniHuman - 1.5能够生成时长超一分钟的动态视频。这些视频呈现出流畅的镜头运动,让画面转换自然;包含复杂的多角色互动,人物关系展现生动;还具备高度动态的动作表现,整体视觉效果出色。
以上文章由 AI 总结生成