免费发布消息

美团发布并开源LongCat - Image模型,图像编辑达开源SOTA水准,中文渲染存短板

   2025-12-09 160
核心提示:2025年12月8日,美团正式发布并开源图像生成模型LongCat-Image,这款6B参数模型在图像编辑能力上达到开源SOTA水准。它重点瞄准文

2025年12月8日,美团正式发布并开源图像生成模型LongCat-Image,这款6B参数模型在图像编辑能力上达到开源SOTA水准。它重点瞄准文生图与单图编辑场景,虽在编辑可控性等方面表现出色,但中文文字渲染在复杂排版下不稳定,复杂UI设计等任务中审美也有短板。美团同步提供了多种体验入口。


模型发布及适用场景

2025年12月8日,美团正式发布并开源图像生成模型LongCat-Image。这是一款6B参数模型,在图像编辑能力上达到开源SOTA水准,重点瞄准文生图与单图编辑两大核心场景。


模型优化方向与性能表现

LongCat-Image把“编辑可控性”和“中文渲染”作为主攻方向。模型采用文生图与图像编辑同源的统一架构及渐进式学习策略,提升指令遵循精准度、生图质量与文字渲染能力。在图像编辑能力上,其在GEdit-Bench、ImgEdit-Bench等多个编辑类基准中取得开源SOTA成绩。通过多种策略,使其面对复杂编辑要求时不易出现风格漂移和结构失真。针对中文文字渲染痛点,采用覆盖8105个规范汉字的合成字形数据预训练等方式,在ChineseWord评测中取得90.7分,领先现有开源模型。在真实感方面,通过对抗训练等绕开AIGC“塑料感”陷阱,人类主观评分维度上,其在多个子项表现接近Seedream4.0等商业模型水平,在图像编辑任务的并列对比评估中对部分模型取得较高胜率,在图像编辑任务上逼近部分闭源模型水平,文生图基础能力保持在开源头部阵营。


实际体验中的优缺点

在实际体验中,LongCat-Image在“连续指令可编辑性”上表现稳定。漫画图像测试中,通过连续重绘指令,模型可保持角色结构稳定,完成风格与材质多轮迁移,人物轮廓和构图基本无明显错误。电影海报制作场景中,模型对参考图继承能力稳定,但复杂排版场景下中文文字渲染存在乱码与英文混杂问题。人物档案式中文海报测试中,模型能正确渲染部分核心字段信息,但中英文错位与局部乱码仍不可避免。产品级渲染测试中,玩偶在多个现实场景下质感表现相对稳定,更接近商业产品渲染效果。


多种体验入口

美团为LongCat-Image同步提供了多种使用方式。在移动端,LongCat APP已支持文生图与图生图能力;在网页端,用户可通过https://longcat.ai/进入图片生成入口进行体验。对于开发者而言,LongCat-Image的模型权重与代码也已同步在Hugging Face(https://huggingface.co/meituan-longcat/LongCat-Image )和GitHub(https://github.com/meituan-longcat/LongCat-Image)开源。


以上文章由 AI 总结生成

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行