当前位置:   article > 正文

Datawhale X 魔搭 AI夏令营第四期 魔搭-AIGC方向 task02笔记

Datawhale X 魔搭 AI夏令营第四期 魔搭-AIGC方向 task02笔记

       整个task2的任务实际上就是学会使用AI来帮助我们理解baseline的代码,在task1中我已经对baseline的代码结构有了一定的了解,task2的任务则是使用AI,这里推荐的是通义千问来对代码中的细节进行更深入的了解,可以让AI逐行的解释baseline中的代码,同时再对其中不理解的地方进行提问从而达到使用AI来进行自学的目的。

       在通义千问中输入“你是一个优秀的python开发工程师,现在我们需要你帮我们具体分析这个代码,用中文回答我的问题【代码部分】”后即可得到AI对代码的分析和理解:

      这段代码包含了多个部分,包括安装Python包、数据处理、使用CLIP模型进行文本-图像相似度计算、创建自定义数据集和数据加载器、以及使用StableDiffusionPipeline生成图像。下面是逐行的分析:

安装Python包

  1. !pip install simple-aesthetics-predictor:安装simple-aesthetics-predictor包,它可能是一个用于评估图像美学质量的工具。
  2. !pip install -v -e data-juicer:安装data-juicer包,-v标志表示详细模式,-e标志表示以可编辑模式安装。
  3. !pip uninstall pytorch-lightning -y:卸载pytorch-lightning包,-y标志表示自动同意卸载。
  4. !pip install peft lightning pandas torchvision:安装peft(可能是pytorch-eft的简称)、lightning(可能是pytorch-lightning的简称)、pandastorchvision包。
  5. !pip install -e DiffSynth-Studio:安装DiffSynth-Studio包,同样是以可编辑模式安装。

加载数据集

  1. from modelscope.msdatasets import MsDataset:从ModelScope导入MsDataset类。
  2. 使用MsDataset.load方法加载名为AI-ModelScope/lowres_anime的数据集,subset为"default",split为"train",并指定缓存目录为/mnt/workspace/kolors/data

数据处理

  1. 导入必要的库:jsonosSpecialTokens from data_juicer.utils.mm_utils, 和tqdm
  2. 创建两个目录./data/lora_dataset/train./data/data-juicer/input,如果它们还不存在的话。
  3. 遍历数据集中的每条数据,将图像转换为RGB模式,并保存到指定路径。同时将元数据写入metadata.jsonl文件中。

配置数据清洗

  1. 定义了data_juicer_config字符串,这是用于数据清洗的配置文件,包括全局参数、要处理的键名、导出路径、以及一系列的过滤器操作。
  2. 将上述配置写入文件data/data-juicer/data_juicer_config.yaml
  3. 执行dj-process命令,传入配置文件路径,对数据集进行清洗。

处理清洗后的数据

  1. 读取清洗后数据集的输出文件result.jsonl,并提取其中的文本和图像文件名。
  2. 创建DataFrame并将结果保存为CSV文件。

使用CLIP模型计算文本-图像相似度

  1. 导入CLIPModelCLIPProcessor,加载预训练的CLIP模型和处理器。
  2. 读取图像并使用CLIP模型计算每个图像和文本之间的相似度得分。

创建自定义数据集

  1. 定义了一个继承自DatasetCustomDataset类,该类可以处理DataFrame中的文本和图像数据。
  2. 创建数据集实例,并使用DataLoader创建批处理数据加载器。

使用StableDiffusionPipeline生成图像

  1. 加载StableDiffusionPipeline模型,并设置其运行在CUDA设备上。
  2. 设置随机种子确保生成结果的可复现性。
  3. 使用不同的提示(prompt)和负向提示(negative prompt)生成多个图像,并保存为JPG格式。

合并生成的图像

  1. 加载所有生成的图像,并将它们合并成一张大图。
  2. 调整合并后的图像大小,并将其转换回PIL.Image对象

使用AI进行提示词创作

     在通义千问中输入下列内容后,根据AI返回的结果得到话剧场景和各个场景的提示词

图片 1: 女主正在上课 古风,淡墨水彩,一个黑色长发少女,坐在教室里,专注地听讲,上半身,穿着素雅的白色长袍,蓝色的腰带。

图片 2: 开始睡着了 古风,轻柔笔触,一个黑色长发少女,趴在书桌上,轻轻地打盹,上半身,身穿浅绿色的长袖衫,头戴玉簪。

图片 3: 进入梦乡,梦到自己站在路旁 古风,梦幻色彩,一个黑色长发少女,身着淡黄色的长裙,站在古道旁,远处是朦胧的山水,全身,手中拿着一枝桃花。

图片 4: 王子骑马而来 古风,动态画面,一个英俊的少年骑着骏马,缓缓而来,背景是古道与青山,全身,少年身着青色战袍,手持长剑。

图片 5: 两人相谈甚欢 古风,温馨色调,黑色长发少女与英俊少年相对而坐,交谈甚欢,上半身,少女穿着粉色的襦裙,少年身着白色长袍,背景是花树下的石桌。

图片 6: 一起坐在马背上 古风,浪漫氛围,黑色长发少女与英俊少年共同坐在马上,少女倚靠着少年的肩膀,全身,少女穿着蓝色的长裙,少年身着金色的盔甲,背景是落日余晖。

图片 7: 下课了,梦醒了 古风,现实转场,一个黑色长发少女,从梦中醒来,揉着眼睛,上半身,身穿白色长袍,背景是空旷的教室。

图片 8: 又回到了学习生活中 古风,日常画面,一个黑色长发少女,坐在书桌前,埋头读书,上半身,身穿灰色的长袍,桌上堆满了古籍。

最后在baseline中替换相关提示词得到新的AI图片

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/1001165
推荐阅读
相关标签
  

闽ICP备14008679号