2025年10月29日,苹果公司发布了图像编辑数据集Pico - Banana - 400K,这一数据集依托谷歌Gemini-2.5模型构建,共包含40万张图像,以非商业性研究许可发布,旨在为下一代文本引导图像编辑模型提供坚实基础,相关论文和数据集已分别在arXiv和GitHub公开。
数据集发布背景与目的
尽管近年来多个模型在图像生成与编辑方面取得显著进展,但苹果研究团队指出,开放研究仍受限于缺乏大规模、高质量且可完全共享的图像编辑数据集。现有数据集存在依赖专有模型生成合成数据、人工筛选子集有限、领域偏移、编辑类型分布不均以及质量控制不一致等问题,阻碍了鲁棒图像编辑模型的发展。为解决这一瓶颈,苹果团队着手构建Pico - Banana - 400K数据集,为下一代文本引导图像编辑模型提供一个坚实、可复现的训练与评测基础。
数据集构建过程
研究团队首先从OpenImages数据集中选取大量真实照片,确保涵盖人物、物体及含文字场景等多样化内容。然后,设计了35种不同类型的图像修改指令,并将其归入八大类别,包括像素与光度调整,如添加胶片颗粒或复古滤镜;以人为中心的编辑,例如将人物转换为Funko - Pop风格的玩具形象;场景构成与多主体编辑,如改变天气条件(晴天 / 雨天 / 雪天);对象级语义修改,如移动物体位置或调整空间关系;图像缩放,如放大画面(Zoom in)等。接下来,研究人员将一张原始图像连同一条编辑指令输入至Nanon - Banana模型进行图像编辑。生成结果随后交由Gemini 2.5 - Pro模型进行自动评估,判断其是否准确遵循指令并具备良好视觉质量。只有通过双重验证的结果才会被纳入最终数据集。
数据集特点
Pico - Banana - 400K不仅包含单轮编辑(single - turn edits,即一次提示完成编辑)的样本,还涵盖了多轮连续编辑序列(multi - turn edit sequences),以及“偏好对”(preference pairs)———— 即成功与失败编辑结果的对比样本,帮助模型学习区分理想与不良输出。
数据集使用许可与公开情况
该数据集采用非商业性研究许可(non - commercial research license)发布,意味着研究人员和学术机构可自由使用,但不得用于商业用途。目前,相关研究论文已发布于预印本平台arXiv,而完整的Pico - Banana - 400K数据集也已在GitHub上向全球研究者免费开放。
以上文章由 AI 总结生成




