🔮
从零入门AI生图原理&实践

2024年8月2日创建

50425

69234

💡

从零入门AI生图原理&实践 是 Datawhale 2024 年 AI 夏令营第四期的学习活动（“AIGC”方向），基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”开展的实践学习——​

•
适合想 入门并实践 AIGC文生图、工作流搭建、LoRA微调 的学习者参与​

学习内容提要：从通过代码实现AI文生图逐渐进阶，教程偏重图像工作流、微调、图像优化等思路，最后会简单介绍AIGC应用方向、数字人技术（选学）​

文生图基本常识

💡

我们先简单了解一下文生图相关的基础知识，然后再开始相关的实践和进一步学习！​

1.
文生图的历史​

文生图（Text-to-Image Generation）是一种通过文本生成图像的技术，其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。这一技术的历史可以分为几个关键阶段：​

发展阶段	发展介绍
早期探索（20世纪60年代-20世纪90年代）	文生图的概念最早出现于计算机视觉和图像处理的早期研究中。早期的图像生成技术主要依赖于规则和模板匹配，通过预定义的规则将文本转换为简单的图形。然而，由于计算能力和算法的限制，这一阶段的技术能力非常有限，生成的图像质量较低，应用场景也非常有限。
基于统计模型的方法（2000年代）	进入2000年代，随着统计模型和机器学习技术的发展，文生图技术开始得到更多关注。研究者们开始利用概率图模型和统计语言模型来生成图像。尽管这一阶段的技术在生成图像的多样性和质量上有了一定提升，但由于模型的复杂性和计算资源的限制，生成的图像仍然较为粗糙，不够逼真。
深度学习的崛起（2010年代）	2010年代是文生图技术发展的一个重要转折点。随着深度学习，尤其是卷积神经网络（CNN）和生成对抗网络（GAN）的发展，文生图技术取得了突破性进展。2014年，Goodfellow等人提出的GAN模型通过生成器和判别器的对抗训练，极大地提升了图像生成的质量。随后，各类变种GAN模型被提出，如DCGAN、Pix2Pix等，使得文生图技术在生成逼真图像方面达到了前所未有的高度。关于文生图技术研究的发展
大规模预训练模型（2020年代）	进入2020年代，大规模预训练模型如OpenAI的CLIP、DALL-E以及Stable Diffusion等的出现，标志着文生图技术进入了一个新的时代。 CLIP通过大规模的文本和图像配对数据训练，能够理解和生成高度一致的文本和图像；DALL-E和Stable Diffusion进一步提升了生成图像的创意和细节表现能力，使得通过简单的文本描述生成高质量、复杂图像成为可能。这些技术的应用范围从艺术创作、广告设计到辅助医疗诊断，展现了广泛的商业价值和社会影响力。
更多关于文生图的技术演变，大家可以参考学习下面的视频 & PPT。课件PPT入口

2.
文生图基础知识介绍​

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。​

common.docs_name - LarkCCM_Docs_Menu_Image

发展阶段	发展介绍
早期探索（20世纪60年代-20世纪90年代）	文生图的概念最早出现于计算机视觉和图像处理的早期研究中。早期的图像生成技术主要依赖于规则和模板匹配，通过预定义的规则将文本转换为简单的图形。然而，由于计算能力和算法的限制，这一阶段的技术能力非常有限，生成的图像质量较低，应用场景也非常有限。
基于统计模型的方法（2000年代）	进入2000年代，随着统计模型和机器学习技术的发展，文生图技术开始得到更多关注。研究者们开始利用概率图模型和统计语言模型来生成图像。尽管这一阶段的技术在生成图像的多样性和质量上有了一定提升，但由于模型的复杂性和计算资源的限制，生成的图像仍然较为粗糙，不够逼真。
深度学习的崛起（2010年代）	2010年代是文生图技术发展的一个重要转折点。随着深度学习，尤其是卷积神经网络（CNN）和生成对抗网络（GAN）的发展，文生图技术取得了突破性进展。2014年，Goodfellow等人提出的GAN模型通过生成器和判别器的对抗训练，极大地提升了图像生成的质量。随后，各类变种GAN模型被提出，如DCGAN、Pix2Pix等，使得文生图技术在生成逼真图像方面达到了前所未有的高度。关于文生图技术研究的发展
大规模预训练模型（2020年代）	进入2020年代，大规模预训练模型如OpenAI的CLIP、DALL-E以及Stable Diffusion等的出现，标志着文生图技术进入了一个新的时代。 CLIP通过大规模的文本和图像配对数据训练，能够理解和生成高度一致的文本和图像；DALL-E和Stable Diffusion进一步提升了生成图像的创意和细节表现能力，使得通过简单的文本描述生成高质量、复杂图像成为可能。这些技术的应用范围从艺术创作、广告设计到辅助医疗诊断，展现了广泛的商业价值和社会影响力。
更多关于文生图的技术演变，大家可以参考学习下面的视频 & PPT。课件PPT入口