电商创意主图场景--AIGC落地项目

Recommand
北京/设计爱好者/1年前/1984浏览
电商创意主图场景--AIGC落地项目Recommand
备注:以下内容仅作为个人方法论沉淀与lora学习交流;具体落地视觉以实际上线为准;已商用、版权归京东-京准通广告设计团队所有,侵权必究。谢谢
一、项目背景
以往平台搜索/推荐广告位的图片生成,需要算法从商家sku的主图/详情图中提取,或者设计师制作模版+批量sku结合完成;最后再由算法批量实验上线,进行广告投放。这个过程不仅需要耗费大量人力,而且在提取生成的主图中,往往伴随大量badcase需要反复的人工优化。在视觉效果上:对比商家自己设计师输出的主图,还是有很大优化空间。
AIGC的出现赋能电商业务,通过SD生成主图lora,针对不同类目生成不同风格主图,效果明显。不仅可以降本增效,在视觉效果上:真实性、完整度、创新多样性上都更有优势。
同一个Lora不同Prompt加上canny生成效果图:👇
【lora1:通用氛围风格】
【lora1:通用氛围风格】
Collect
【lora2:美妆类目】
【lora2:美妆类目】
Collect
【lora3:电脑办公类目】
【lora3:电脑办公类目】
Collect
二、Lora训练流程
  • 🚩素材图:
    前期的图片素材非常重要,越高清的图片训练出来的图也更有细节和质感,这里是1024*1024;
  • 🚩Tag词:书写好的tag词很重要,会影响lora测试时能否生出符合要求的AI场景图。
  • 🚩云端部署训练:在电脑设备局促的情况下,云端部署训练lora是种选择。训练lora过程中,需要底模、训练集+tag图上传,和参数的设置。
  • 🚩测试:从生成的一批Lora中(这里是5个)进行多种方式测试(tag词反推测试,随意关键词测试与调整测试),最后通过对比选出最好的一个lora。
  • 🚩调整:如果测试出的Lora效果不如意,就需要找原因,是素材图问题还是tag词问题,还是参数设置问题,这个过程需要验证一一排查。
  • 🚩批量测试:添加controinet的canny选项后生成单张效果测试,没问题再进行大批量sku测试(这里是放了几百张sku效果图),最后badcase率控制在10%,lora模型算是成功可用的。
流程概述图
流程概述图
Collect
1、Tag词描述结构:主体+环境+背景+风格
训练集里的Tag词有很多种完成方式:SD反推;ChatGpt书写;Mj反推;人工书写。我这里使用的方法是Mj+人工整理的方式完成的。
电商创意主图场景--AIGC落地项目
Collect
⚠️:Tag词的打标非常重要,通常情况下想要保留固定元素,需要对其进行详细的描述。如果需要AI有更多发展空间,可以不描述,或者简单概述。
(比如主体想要保留这个白色蓝牙耳机,就描述:白色无线蓝牙耳机。反之如果主体物希望Ai有更大空间生成多种随机的,可以描述:一个主商品,至于是什么主商品,Ai会随机生成。)
2、Tag词生成方式:MJ+人工
电商创意主图场景--AIGC落地项目
Collect
⚠️如果自身编辑tag词能力很强,忽略此环节,可以直接手写tag词。
方法一:我是通过MJ先给出4条描述词,再进行人工提取MJ高频出现的描述词,写出自己的tag词,这种方式就是花费时间。后面熟练之后,直接手写tag词。
方法二:还有第二种是把图发给Chat,通过一定的话术逻辑得到tag词。
方法三:最后是sd反推tag词;但我实践后觉得80%不太能用。还需要人工写。
(不管哪种方式,目前AI随机性还是需要人工整理后再用比较精准。)
3、云端部署·如何使用与上传
Sd对电脑设备有一点要求,前期实践的项目中使用是MAC电脑-云端部署-AutoDL AI算力云流程和设置参数情况。(后来团队技术也开发出自己的aigc页面,这里不展示了)
⚠️服务器使用与打开路径:算力市场 ➡️ 租卡 ➡️ 社区镜像:输入LORA(可选择最新且下载量多的)➡️ 加载运行完成 ➡️ 开机 ➡️ 进入JupyterLab ➡️ 在左侧操纵面板选择对应位置上传训练集和大模型
⚠️训练集上传路径:lora-scripts ➡️ train ➡️ 新建文件夹名:image ➡️ 新建文件夹:例如: 50_TY【此处命名非常重要‼️50代表训练步数,TY是命名】➡️ 直接拖拽图片与tag到文件夹即可
⚠️大模型上传路径:lora-scripts ➡️ sd-models
⚠️参数调整路径:lora-scripts ➡️ train.sh ➡️ 调整后记得(ctrl+s保存)
⚠️终端输入:bash train.sh 回车开始训练(可以预估训练时间,算力云也可以设置定时关机)
⚠️开始训练。
租服务器👆
租服务器👆
Collect
选择社区镜像👆
选择社区镜像👆
Collect
开机👆
开机👆
Collect
4、训练需要修改的参数
🚩Repeat:学习次数。与其他参数都不一样,是在建立文件夹的时候设置的。格式为:50_xxx(也就是训练集文件夹命名处)
🚩model:底模路径
🚩dete_dir:训练集的名称
🚩dim:一般64
🚩alpha:一般32(数值是dim的一半)
🚩resolution:图片尺寸大小
🚩Batch size:一般2,显存小写1
🚩epoches:训练轮数,这里是20,也可以10
🚩epochs:2(轮数20除以2,意味着可以得到10个模型。同理轮数10除以2,意味着得到5个模型。越多模型训练时长也越久)
🚩encoder_lr:学习率(挺重要的数值,这里改成1e-4)
🚩name:此处是lora的名称(比如要训5个lora,最后一个系统给的名称需要手动修改)
参数修改👆
参数修改👆
Collect
终端开始训练👆
终端开始训练👆
Collect
三、Lora测试流程
测试之前需要重新开Sd的服务器,不同于上面👆训练lora的。
🚩测试lora开机与设置流程:
⚠️服务器使用与打开路径:算力市场 ➡️ 租卡 ➡️ 社区镜像(输入nov选择较新且下载多的版本)➡️这里选择了【AUTOMATIC1111/stable-diffusion-webui/NovelAI-Consolidation-Package-3.1:v12】➡️ 加载运行完成 ➡️ 开机➡️ 进入JupyterLab ➡️ 点击▸开始并确认完成 ➡️ 右上角选择xl_env格式(加载不出来刷新页面)➡️ 点击启动/运行WebUI ➡️ 等待加载完成即可
⚠️底模上传路径:stable-diffusion-webui ➡️ models ➡️ stable-diffusion 
⚠️ControINet上传路径:stable-diffusion-webui ➡️ extensions ➡️ controlnet ➡️ models
⚠️Lora上传的位置:stable-diffusion-webui ➡️ models ➡️ Lora
⚠️以上完成后,从容器实例页面 ➡️ 点击自定义服务(服务器不同有的可直接点接访问进入,有的需要打开终端按照指示进入。都可)进入webUI页面。
租/开机方式和前面一样⚠️注:镜像不同后面也会有区别,这里是【AUTOMATIC1111/stable-diffusion-webui/NovelAI-Consolidation-Package-3.1:v12】
租/开机方式和前面一样⚠️注:镜像不同后面也会有区别,这里是【AUTOMATIC1111/stable-diffusion-webui/NovelAI-Consolidation-Package-3.1:v12】
Collect
开始运行/修改xl_env👆
开始运行/修改xl_env👆
Collect
等待启动webUI页面/选择参数(前4个)👆
等待启动webUI页面/选择参数(前4个)👆
Collect
运行完成👆
运行完成👆
Collect
上传:底模/lora/controinet的地方👆
上传:底模/lora/controinet的地方👆
Collect
点击自定义服务 ➡️ 进入sd页面👆
点击自定义服务 ➡️ 进入sd页面👆
Collect
1、使用XYZ图标测试lora:确定最好的lora与参数
🚩测试两遍:
1)第一遍先使用tag词反推。把训练集中的tag直接输入关键词中,判断生成效果像不像。
2)第二遍输入tag之外的随性关键词,描述需要的场景与主体,判断是否能生成理想效果。
⚠️基本多个关键词训练下来之后,几个lora中会选出比较好的一个lora。(建议测试的时候做个统计表格,把每个关键词生成时候的参数/效果图截图记录下来,最后一堆测试图与参数中对比哪个最好。)
⚠️关键词与反向词都很重要,我的训练过程中关键词中使用了权重,加权重前与不加效果不一样。两组不同的反向词也生成不一样。(其他同事没遇到我这种情况,所以比较玄学,一切都以最后生成效果为基准。)
模型/关键词输入👆
模型/关键词输入👆
Collect
参数设置👆
参数设置👆
Collect
多种测试/选出最好的lora与参数👆
多种测试/选出最好的lora与参数👆
Collect
2、加上canny、使用不同prompt测试
选出最好一个lora加上controinet测试:
⚠️这个过程可能会微调步数/参数,直到大量测试图之后,生成的多样性与泛化性都OK才算这个lora是可用的。
⚠️把选出来的关键词+controlnet效果,进行大批量sku测试,badcase控制在10%说明这条关键词/参数,生成的效果OK,是成功的。
测试图中因加了controinet,商品颜色被背景色影响,后面会通过算法覆盖sku,正常使用。
3、同prompt、批量sku测试
这一步需要通过算法同学的支持。
⚠️测试过程可能会微调步数/参数,直到大量测试图之后,生成的多样性与泛化性都OK才算这个lora是可用的。
⚠️把选出来的关键词+controlnet效果,进行大批量sku测试,badcase控制在10%左右说明这条关键词/参数,生成的效果OK,是成功的。
电商创意主图场景--AIGC落地项目
Collect
四、Lora生成更多类目效果
可以通过上面lora模型的训练与测试方法,根据不同商品类目生成对应风格的lora模型。
电商创意主图场景--AIGC落地项目
Collect
五、写在最后
lora模型训练云端部署方法,网上也有很多视频教学,个人觉得就算看懂了理论基础与方法,实操过程中依旧会遇到各种各样问题发生,尤其是在初期摸索熟悉中更显著,一个细节一个参数值就可能生出完全不同的内容,或者死活生不出想要的效果。比如换个镜像选项,就可能节省模型训练一半时常等等。加上AI本身生图的随机性,这种情况更常见。有时候会因为解决一个问题耗费大量时间与耐心,但在熟悉与掌握后,在后期批量生产中就会显示出AI是提效的,而且一些东西生成效果比人工更自然点。
 
这里做的以上复盘总结,仅限个人实操中方法论,或许有更便捷更提效的方式训练电商背景风格的lora,也欢迎同样具有实践经验的同学来指教。
 
最后是感谢团队的同事们,耐心教授经验,有求必应的帮助。
22
Report
|
65
Share
相关推荐
评论
in to comment
Add emoji
喜欢TA的作品吗?喜欢就快来夸夸TA吧!
推荐素材
You may like
相关收藏夹
AIGC
AIGC
AIGC
AIGC
作品收藏夹
AIGC
106
ui
ui
ui
ui
作品收藏夹
思路
思路
思路
思路
作品收藏夹
AI
AI
AI
AI
作品收藏夹
sd
sd
sd
sd
作品收藏夹
AIGC
AIGC
AIGC
AIGC
作品收藏夹
大家都在看
Log in