Stable Diffusion
简介
- Stable diffusion是一个基于Latent Diffusion Models(LDMs)实现的的文图生成(text-to-image)模型;
- 能够创造出既逼真又具有艺术风格的图像;
功能
- 文本生成图片(text2img): 输入文本描述, 输出图片;
- 图片生成图片(img2img): 输入图片+文本, 输出图片;
- 图片融合: 两张不同图片生成一张新的图片;
原理
text-to-image包含3个步骤:
- 文本编码器(Text Encoder)将提示词(Prompt) 编码成一个77 x 768 维度的特征词向量;
- 图片信息生成器(Image Information Creator)将特征词向量和一张随机图一起转化到一个 Latent Space(潜空间)里,然后根据这些特征向量,将随机图「降噪」为一个「中间产物」;
- 图片解码器(Image Decoder)将生成的中间产物解码成真正的图片;