Stable Diffusion

Stable Diffusion

简介

  • Stable diffusion是一个基于Latent Diffusion Models(LDMs)实现的的文图生成(text-to-image)模型;
  • 能够创造出既逼真又具有艺术风格的图像;

功能

  • 文本生成图片(text2img): 输入文本描述, 输出图片;
  • 图片生成图片(img2img): 输入图片+文本, 输出图片;
  • 图片融合: 两张不同图片生成一张新的图片;

原理

text-to-image包含3个步骤:

  1. 文本编码器(Text Encoder)将提示词(Prompt) 编码成一个77 x 768 维度的特征词向量;
  2. 图片信息生成器(Image Information Creator)将特征词向量和一张随机图一起转化到一个 Latent Space(潜空间)里,然后根据这些特征向量,将随机图「降噪」为一个「中间产物」;
  3. 图片解码器(Image Decoder)将生成的中间产物解码成真正的图片;

SD原理

参考

  1. 深入浅出理解 AI 生图模型 Stable Diffusion
  2. 一文读懂Stable Diffusion 论文原理+代码超详细解读
  3. stable diffusion原理解读
updatedupdated2024-08-252024-08-25