“Datawhale x魔搭 AI夏令营”-AIGC方向-Day1从零入门AI生图原理&实践

学习内容提要:

从通过代码实现 AI 文生图逐渐进阶,教程偏重图像工作流、微调、图像优化等思路,最后会简单介绍 AIGC 应用方向、数字人技术(选学)

Task01: 简单了解一下文生图相关的基础知识

具体 Datawhale 教程学习内容见链接:https://linklearner.com/activity/14/10/24

报名赛事

链接:https://tianchi.aliyun.com/competition/entrance/532254

报名

内容

基础知识

关于文生图技术研究的发展:

文生图基础知识:

提示词

提示词很重要,一般写法:主体描述,细节描述,修饰词,艺术风格,艺术家

Lora

Stable Diffusion 中的 Lora(LoRA)模型是一种轻量级的微调方法,它代表了“Low-Rank Adaptation”,即低秩适应。Lora 不是指单一的具体模型,而是指一类通过特定微调技术应用于基础模型的扩展应用。在 Stable Diffusion 这一文本到图像合成模型的框架下,Lora 被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。

参考图控制

ControlNet 是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型(如 Stable Diffusion 模型)上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程,而 ControlNet 的作用在于引入额外的控制信号,使得用户能够更具体地指导图像生成的各个方面(如姿势关键点、分割图、深度图、颜色等)。

ComfyUI

ComfyUI 是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能,用户可以轻松地进行模型微调、数据预处理、图像生成等任务,从而提高工作效率和生成效果。

工具

python 语言

Data-Juicer:数据处理和转换工具,旨在简化数据的提取、转换和加载过程

DiffSynth-Studio:高效微调训练大模型工具

实践步骤

Step0:开通阿里云 PAI-DSW 试用

链接:https://free.aliyun.com/?productCode=learn

Step1:报名赛事!(点击即可跳转)

赛事链接:https://tianchi.aliyun.com/competition/entrance/532254

> 链接:https://www.modelscope.cn/my/mynotebook/authorization

Step2:在魔搭社区创建 PAI 实例!


链接:https://www.modelscope.cn/my/mynotebook/authorization

Step3:30 分钟体验一站式 baseline!

  1. 下载 baseline 文件(大约需要 2 分钟)

    git lfs install
    git clone https://www.modelscope.cn/datasets/maochase/kolors.git
    
  2. 进入文件夹,打开 baseline 文件

  3. 安装环境,然后重启 kernel

  • 安装 Data-Juicer 和 DiffSynth-Studio
  1. 运行代码

代码块按照功能主要分成这几类

  • 使用 Data-Juicer 处理数据,整理训练数据文件

  • 使用 DiffSynth-Studio 在基础模型上,使用前面整理好的数据文件进行训练微调

  • 加载训练微调后的模型

  • 使用微调后的模型,生成用户指定的 prompt 提示词的图片

最后结果:生成的图片还挺清晰的 ~

最喜欢这张

Step4:微调结果上传魔搭

链接:https://www.modelscope.cn/models/create

最后别忘了关掉 PAI 实例

写在最后

感觉挺有意思的,使用了阿里云的算力,魔塔社区跟阿里云合作,能够使用云端深度学习开发环境,Notebook 功能由阿里云提供产品和资源支持。感觉是国内能对标 Google colab 的产品组合了。