Step1X-Edit是什么
Step1X-Edit 是阶跃星辰团队推出的通用图像编辑框架,能缩小开源图像编辑模型与闭源模型(如 和)之间的性能差距。Step1X-Edit结合多模态大语言模型(MLLM)和扩散模型,基于处理参考图像和用户的编辑指令,提取潜在嵌入生成目标图像。为训练模型,研究者构建大规模高质量的数据生成管道,生成超过 100 万对图像和指令对。Step1X-Edit 提出新的基准测试 GEdit-Bench,用在真实世界用户指令的评估。
Step1X-Edit的主要功能
- 多样化编辑能力:支持多种图像编辑任务,包括主体添加、移除、替换,背景更改,色彩调整,材质修改,风格转换,肖像美化,文字修改,色调变化等。
- 自然语言指令驱动:用户基于自然语言描述编辑需求,模型能理解执行复杂的编辑指令。
- 高质量图像生成:支持生成高保真、逼真的图像结果。
- 真实世界场景适配:基于大规模高质量数据集训练,处理真实世界中的各种复杂编辑场景。
Step1X-Edit的技术原理
- 多模态大语言模型(MLLM):基于 MLLM处理参考图像和用户的编辑指令,提取语义信息。基于MLLM 的强大语义理解能力,生成与编辑任务相关的嵌入向量。
- 扩散模型(Diffusion Model):结合扩散模型(如 DiT 风格的架构)进行图像生成。用扩散模型的高保真生成能力,将 MLLM 提供的嵌入向量解码为目标图像。
- 数据生成管道:构建一个大规模、高质量的数据生成管道,生成超过 100 万对图像和指令对。数据管道涵盖多种编辑任务类别,确保模型能够学习到多样化的编辑操作。
- 训练策略:从文本到图像模型初始化,保留美学质量和视觉一致性。基于联合训练连接模块和下游扩散模型,优化整体性能。
- 基准测试(GEdit-Bench):推出基于真实用户指令的基准测试 GEdit-Bench,评估模型的实际性能。GEdit-Bench 包含多种编辑任务,确保模型在真实场景中的有效性。
Step1X-Edit的项目地址
- 项目官网:https://step1x-edit.github.io/
- GitHub仓库:https://github.com/stepfun-ai/Step1X-Edit
- HuggingFace模型库:https://huggingface.co/stepfun-ai/Step1X-Edit
- arXiv技术论文:https://arxiv.org/pdf/2504.17761
- 在线体验Demo:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit
Step1X-Edit的应用场景
- 创意设计:快速生成创意图像,如更换背景、调整颜色、添加元素,提高设计效率。
- 影视后期:用在特效制作,如添加/移除物体、改变外观或调整色调,节省后期成本。
- 社交媒体:美化照片、添加趣味元素或调整风格,提升内容吸引力。
- 游戏开发:生成角色、场景和道具,快速调整装备或风格,减少美术资源开发时间。
- 教育领域:生成教学材料,如修改历史照片、创建科学插图,增强教学效果。