赞
踩
选择合适的训练平台:如果您还没有选择平台,这里我们推荐揽睿星舟平台,以下步骤以在揽睿星舟操作为例。
训练数据:要求是若干张待训练的图片以及其描述文字,这里我们选用huggingface上的公开数据集,四张可爱狗狗的照片:https://huggingface.co/datasets/diffusers/dog-example/tree/main,也可以打开其父级目录查找其他照片组合。
注意事项:为每张图片准备一段仅一行的文本描述,存入txt或caption文件。一张图片对应一个文本文件。描述文字的命名需和 图片一致,如1.jpg的描述文字为1.caption或1.txt。
如图所示:
新建文件夹(将图片以及其描述文字放入):
mkdir -p /ark-contexts/data/sd_train_dataset/img /ark-contexts/data/sd_train_dataset/log /ark-contexts/data/sd_train_dataset/model
在img目录下新建文件,其中xx是数字,代表训练步数,XXXXX为自定义名称,本例中设为10_item,并将图片和描述文字放入该文件夹中:
cd /ark-contexts/data/sd_train_dataset/img
mkdir 10_item
把准备好的训练数据放入上述文件夹。检查最终训练数据文件夹结构为:
这里我们需要准备两个模型(先看下边的下载方法)。
clip-vit-large-patch14
第一个需要下载的模型 clip-vit-large-patch14,是我们需要从https://huggingface.co/openai/clip-vit-large-patch14 自行下载模型文件,上传到/ark-contexts/data/huggingface/hub/models–openai–clip-vit-large-patch14/snapshots/8d052a0f05efbaefbc9e8786ba291cfdf93e5bff 文件夹下。
最终文件夹的结构为:
stable-diffusion-v1-5
第二个需要下载的模型是stable-diffusion-v1-5,我们需要从https://huggingface.co/runwayml/stable-diffusion-v1-5上下载模型,
一、直接使用命令下载(这里以clip-vit-large-patch14为例):
# 打开上图中的clone repository后,有如下命令
git lfs install
# 先安装好lfs,后边如果这一句报错可能是没有+sudo。
git clone https://huggingface.co/openai/clip-vit-large-patch14
注意:这里没有lfs,需要自行安装
tar -zxvf git-lfs-linux-amd64-v2.9.0.tar.gz
sudo ./install.sh
二、使用网盘来从本地上传(针对大文件上传)
参考官方文档:https://paritybit-us.gitbook.io/lan-rui-xing-zhou/yong-hu-shou-ce/zui-jia-shi-jian/shang-chuan-wang-pan-de-xiao-miao-zhao这里需要注意的是,记得更改端口号为443。
cd /app/lora-scripts
sudo sh run_gui.sh --host 0.0.0.0 --port 27777 --tensorboard-host 0.0.0.0
运行成功后我们需要在工作空间复制调试地址,在浏览器粘贴地址并且跳转,就可以进入训练界面了。
训练界面如下所示,可以选择新手或专家两种模式,新手模式暴露的参数更少。本例使用专家模式:需要修改的参数为:
底模路径:使用的是我们刚才下载的模型stable-diffusion-v1-5中的文件v1-5-pruned.ckpt,我这里的路径是/ark-contexts/data/sd_train_dataset/v1-5-pruned.ckpt
train_data_dir:使用到的是训练数据集的路径,我这里的路径是/ark-contexts/data/sd_train_dataset/img
模型保存名称(可选):更改模型名称
模型保存路径(可选):更改模型保存路径
其他配置自行选择,配置完成后,可以点击开始训练,我们可以在之前的终端中监控模型的训练结果。
训练过程中可能会遇到的问题:
文件夹中没有模型:检查设置的文件夹中是否存在对应模型
模型没有下载完全:可能是没有安装lfs导致的,Git LFS (Large File Storage) - 是Git源代码管理系统的一个扩展程序,可处理大型二进制文件的版本控制,在传输大型文件时需要首先安装lfs。
如图所示即为训练后的模型,模型保存在当前目录下的./output/aki.safetensors
总结:折腾的时间比我想象的长,但比起自己部署整个环境,云端训推还是香啊,想练练手的可以试试先薅个2小时羊毛注册链接
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。