免费发布消息

美团开源SOTA级虚拟人视频生成模型LongCat-Video-Avatar,实现多维度突破

   2025-12-19 200
核心提示:2025年12月18日,美团LongCat团队正式发布并开源SOTA级虚拟人视频生成模型LongCat-Video-Avatar。该模型基于LongCat-Video基座打

2025年12月18日,美团LongCat团队正式发布并开源SOTA级虚拟人视频生成模型LongCat-Video-Avatar。该模型基于LongCat-Video基座打造,功能丰富且在底层架构上实现重要突破,在权威公开数据集评测中多项核心指标领先,赋予虚拟人 “真正的生命力”。


模型发布与开源信息

据“龙猫LongCat”公众号12月18日晚推文,美团LongCat团队正式发布并开源SOTA级虚拟人视频生成模型LongCat-Video-Avatar 。此消息在IT之家等平台有所报道。


模型的功能与架构升级

LongCat-Video-Avatar基于LongCat-Video基座打造,延续“一个模型支持多任务”的核心设计,原生支持Audio-Text-to-Video、Audio-Text-Image-to-Video及视频续写等核心功能。同时,在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的突破。


模型的技术亮点

该模型具备两大技术亮点。其一,“告别僵硬,迎接鲜活”,不仅能指挥嘴型,还能同步指挥眼神、表情和肢体动作,实现丰富饱满的情感表达。其二,美团通过Disentangled Unconditional Guidance(解耦无条件引导)训练方法,让模型明白了“静音”不等于“死机”,在说话的间歇,虚拟人也会如同人类一般自然地眨眼、调整坐姿、放松肩膀 。因此,LongCat-Video-Avatar成为首个同时支持文字、图片、视频三种生成模式的“全能选手”,使虚拟人有了“真正的生命力”。


模型的评测成绩

在HDTF、CelebV-HQ 、EMTD和evalTalker等权威公开数据集上的定量评测表明,LongCat-Video-Avatar在多项核心指标上达到SOTA领先水平。


模型的项目地址

IT之家附上该模型的项目地址为:GitHub: https://github.com/meituan-longcat/LongCat-Video ;Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Video-Avatar ;Project: https://meigen-ai.github.io/LongCat-Video-Avatar/ 。


以上文章由 AI 总结生成

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行