
更多AI前沿科技资讯,请关注我们:
【closerAI ComfyUI】开源核爆!Step1X-Edit正掀起AIGC工具平民化革命,开启全民AI图像编辑新时代!!用嘴P图,小白也能秒变大神!
大家好,我是Jimmy。在图像编辑领域,研究人员和开发者一直在寻求能够提供更高效、更精准的解决方案。最近,一个名为Step1X-Edit的开源项目引起了广泛关注。该项目旨在通过一种统一的图像编辑模型,实现对各种真实用户指令的出色表现。该框架的目标是超越现有的开源基准,并接近封闭源代码模型的性能,如GPT-4o和Gemini2 Flash。通过采用多模态大型语言模型(LLM),Step1X-Edit能够处理参考图像和用户的编辑指令,并生成目标图像。
Step1X-Edit是阶跃星辰于2025年4月推出的开源图像编辑大模型,总参数量19B(7B多模态语言模型MLLM+12B扩散模型DiT),旨在提供精准、可控、高保真的通用图像编辑能力。

其核心能力包括:
- 语义精准解析:支持自然语言描述的复杂组合指令(如“将图片改为清晨,人物服装换成古装”),无需预设模板,可识别并替换图像中的文字。
- 身份一致性保持:编辑后稳定保留人脸、姿态等特征,适用于虚拟人、电商模特等高一致性场景。
- 区域级精细控制:对指定区域进行文字、材质、色彩等定向编辑,保持整体风格统一。
技术架构创新
模型采用MLLM+DiT解耦式架构,突破传统图像编辑模型的技术瓶颈:
- MLLM模块:负责多模态语义理解,将自然语言指令解析为潜在控制信号(Latent Control Signals),解决复杂指令泛化问题。
- DiT模块:基于扩散模型实现图像重构与局部修改,通过Latent信号精确控制生成细节,确保图像保真度。

该架构通过端到端训练实现语言理解与图像生成的协同优化,相比传统Pipeline模型,执行复杂指令的准确率提升约30%。
性能表现与评测
阶跃星辰自研基准测试集GEdit-Bench(数据源于社区真实需求)显示:
- 语义一致性得分比主流开源模型高21.5%,实现语言理解与图像重构的理想平衡。
- 图像质量指标(如FID、CLIP Score)达到开源SOTA水平,尤其在人物修图场景下细节保留优于竞品。
- 支持11类高频任务,包括文字替换、风格迁移、材质变换等,覆盖90%以上用户日常需求。

应用场景示例
- 商业设计:替换海报文案/产品包装文字,调整材质适配不同商品展示。
- 艺术创作:一键实现油画风、复古风等风格迁移,支持多轮迭代优化。
- 社交修图:人物美化(磨皮、换装)同时保持身份特征,避免“网红脸”失真。

以下是其项目相关的地址:
- Github:https://github.com/stepfun-ai/Step1X-Edit
- HuggingFace:https://huggingface.co/stepfun-ai/Step1X-Edit
- ModelScope:https://www.modelscope.cn/models/stepfun-ai/Step1X-Edit/summary
- 技术 Report:https://arxiv.org/pdf/2504.17761
- 线上体验:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit

- Step1X-Edit在comfyUI中的体验
还没有正式开源的comfyUI项目,但相信很快会开源出来。主要是它需要的配置太高了,一般消费级显卡部署不了。以下是相关配置要求说明:

所以,心急的大家继续再等等社区进行量化。让子弹飞一下。
我们可以去线上进行体验,线上体验有两种方案:
1、是去抱脸上进行体验:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit 这个需要魔法
我们体验下,移除人物:

可见,人物去除很干净。我们再试下换衣服,提示词写换成红色旗袍。

能保持人物姿势不变,换上衣服。出色的。
没有魔法不要紧,第二个体验方法如下:
2、是RH推出了comfyUI线上的节点,RH_Step1XEdit节点,RH版的comfyUI节点相信很快也会开源出来给大家使用。

以下是体验结果:修改衣服颜色


也能很完美的进行修改。不错的。但生成速度是很感人。
本地算力不够怎么办?
如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

runninghub.cn 工作流体验地址:
https://www.runninghub.cn/search?q=Jimmy
注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151
通过这个链接第一次注册送1000点,每日登录送100点
最后几句:
相对闭源产品GPT,Gemini,step1Edit在开源方面提供了一个接近用嘴编辑图片的解决方案,目前从介绍以及体验来看,的确是个不错的产品,效果也很好。但目前离触及消费级显卡普遍平民化还隔着一个最化版本。相信不出一个月,开源社区就会出来。期待!

以上是Step1X Edit图像编辑大模型的介绍。
当然,也可以在我们closerAI会员站上获取最新资讯(查看原文)。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:JimmyMo
更多AI前沿科技资讯,请关注我们:

【还没有comfyUI的开源实现项目,出了补上工作流】
主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网
评论(0)