添加图片注释,不超过 140 字(可选)

更多AI前沿科技资讯,请关注我们:

【closerAI ComfyUI】开源核爆!Step1X-Edit正掀起AIGC工具平民化革命,开启全民AI图像编辑新时代!!用嘴P图,小白也能秒变大神!

大家好,我是Jimmy。在图像编辑领域,研究人员和开发者一直在寻求能够提供更高效、更精准的解决方案。最近,一个名为Step1X-Edit的开源项目引起了广泛关注。该项目旨在通过一种统一的图像编辑模型,实现对各种真实用户指令的出色表现。该框架的目标是超越现有的开源基准,并接近封闭源代码模型的性能,如GPT-4o和Gemini2 Flash。通过采用多模态大型语言模型(LLM),Step1X-Edit能够处理参考图像和用户的编辑指令,并生成目标图像。

Step1X-Edit是阶跃星辰于2025年4月推出的开源图像编辑大模型,总参数量19B(7B多模态语言模型MLLM+12B扩散模型DiT),旨在提供精准、可控、高保真的通用图像编辑能力。

添加图片注释,不超过 140 字(可选)

核心能力包括:

  1. 语义精准解析:支持自然语言描述的复杂组合指令(如“将图片改为清晨,人物服装换成古装”),无需预设模板,可识别并替换图像中的文字。
  2. 身份一致性保持:编辑后稳定保留人脸、姿态等特征,适用于虚拟人、电商模特等高一致性场景。
  3. 区域级精细控制:对指定区域进行文字、材质、色彩等定向编辑,保持整体风格统一。

技术架构创新

模型采用MLLM+DiT解耦式架构,突破传统图像编辑模型的技术瓶颈:

  • MLLM模块:负责多模态语义理解,将自然语言指令解析为潜在控制信号(Latent Control Signals),解决复杂指令泛化问题。
  • DiT模块:基于扩散模型实现图像重构与局部修改,通过Latent信号精确控制生成细节,确保图像保真度。
添加图片注释,不超过 140 字(可选)

该架构通过端到端训练实现语言理解与图像生成的协同优化,相比传统Pipeline模型,执行复杂指令的准确率提升约30%。

性能表现与评测

阶跃星辰自研基准测试集GEdit-Bench(数据源于社区真实需求)显示:

  • 语义一致性得分比主流开源模型高21.5%,实现语言理解与图像重构的理想平衡。
  • 图像质量指标(如FID、CLIP Score)达到开源SOTA水平,尤其在人物修图场景下细节保留优于竞品。
  • 支持11类高频任务,包括文字替换、风格迁移、材质变换等,覆盖90%以上用户日常需求。
添加图片注释,不超过 140 字(可选)

应用场景示例

  1. 商业设计:替换海报文案/产品包装文字,调整材质适配不同商品展示。
  2. 艺术创作:一键实现油画风、复古风等风格迁移,支持多轮迭代优化。
  3. 社交修图:人物美化(磨皮、换装)同时保持身份特征,避免“网红脸”失真。
添加图片注释,不超过 140 字(可选)

以下是其项目相关的地址:

  • Github:https://github.com/stepfun-ai/Step1X-Edit
  • HuggingFace:https://huggingface.co/stepfun-ai/Step1X-Edit
  • ModelScope:https://www.modelscope.cn/models/stepfun-ai/Step1X-Edit/summary
  • 技术 Report:https://arxiv.org/pdf/2504.17761
  • 线上体验:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit
添加图片注释,不超过 140 字(可选)
  • Step1X-Edit在comfyUI中的体验

还没有正式开源的comfyUI项目,但相信很快会开源出来。主要是它需要的配置太高了,一般消费级显卡部署不了。以下是相关配置要求说明:

添加图片注释,不超过 140 字(可选)

所以,心急的大家继续再等等社区进行量化。让子弹飞一下。

我们可以去线上进行体验,线上体验有两种方案:

1、是去抱脸上进行体验:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit 这个需要魔法

我们体验下,移除人物:

添加图片注释,不超过 140 字(可选)

可见,人物去除很干净。我们再试下换衣服,提示词写换成红色旗袍。

添加图片注释,不超过 140 字(可选)

能保持人物姿势不变,换上衣服。出色的。

没有魔法不要紧,第二个体验方法如下:

2、是RH推出了comfyUI线上的节点,RH_Step1XEdit节点,RH版的comfyUI节点相信很快也会开源出来给大家使用。

添加图片注释,不超过 140 字(可选)

以下是体验结果:修改衣服颜色

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

也能很完美的进行修改。不错的。但生成速度是很感人。

本地算力不够怎么办?

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

添加图片注释,不超过 140 字(可选)

runninghub.cn 工作流体验地址:

https://www.runninghub.cn/search?q=Jimmy

注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点,每日登录送100点


最后几句:

相对闭源产品GPT,Gemini,step1Edit在开源方面提供了一个接近用嘴编辑图片的解决方案,目前从介绍以及体验来看,的确是个不错的产品,效果也很好。但目前离触及消费级显卡普遍平民化还隔着一个最化版本。相信不出一个月,开源社区就会出来。期待!

添加图片注释,不超过 140 字(可选)

以上是Step1X Edit图像编辑大模型的介绍。

当然,也可以在我们closerAI会员站上获取最新资讯(查看原文)

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:JimmyMo

更多AI前沿科技资讯,请关注我们:

添加图片注释,不超过 140 字(可选)

【还没有comfyUI的开源实现项目,出了补上工作流】

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。