Stable Diffusion

2024.6.7 2026.7.12 滴水穿石 43 1 分钟

Stable Diffusion

简介

Stable diffusion是一个基于Latent Diffusion Models（LDMs）实现的的文图生成（text-to-image）模型;
能够创造出既逼真又具有艺术风格的图像;

功能

文本生成图片(text2img): 输入文本描述, 输出图片;
图片生成图片(img2img): 输入图片+文本, 输出图片;
图片融合: 两张不同图片生成一张新的图片;

原理

text-to-image包含3个步骤:

文本编码器(Text Encoder)将提示词(Prompt) 编码成一个77 x 768 维度的特征词向量;
图片信息生成器(Image Information Creator)将特征词向量和一张随机图一起转化到一个 Latent Space（潜空间）里，然后根据这些特征向量，将随机图「降噪」为一个「中间产物」;
图片解码器(Image Decoder)将生成的中间产物解码成真正的图片;

SD原理

参考

作者：Justice
链接：https://justice.bj.cn/post/50.ml/stable_diffusion/
许可：CC BY-NC-SA 4.0

赞赏支持

微信打赏

支付宝打赏

比特币打赏