HCP Diffusion 官方文档1.01 loRA讲解视频:LoRA explained (and a bit about precision and quantization)关键:秩分解 + 对低秩矩阵进行微调训练$$ W_0 + \Delta W = W_0 + BAW_0 + \Delta W = W_0 + BA $$$W_0$ 是保持不变的原始模型权重A 和 B 是低秩矩阵:$B\in \mathbb{R}^{d\times r},A\in \mathbb{R}^{r\times k},rank\ r\ll \min(d,k)$ 有:$BA = \Delta W$初始化:$B$ 初始化为零矩阵,$A$ 的权重从正态分布中采样在 transformer 中,它通常应用于 attention weights前向传播:输入数据同时通过原始模型和低秩矩阵进行计算。结果相加,得到最终输出。$$ h = W_0 x + \Delta Wx = W_0 x + BAx $$def regular_forward_matmul(x, W): h = x @ w return h
Stable Models 阅读摘选稳定扩散的关键要素从大方向来看,稳定扩散可以分解三个重要元素:感知图像压缩:先将图像透过感知图像编码器&解码器(VQ-VAE [12]和VQ-GAN [13]风格)降低解析度后,直接在降解析度的图像上,或者说特征图上,进行 DDPM 的训练。潜在扩散模型:基本上就是 DDPM 的描述方法,不过这个 DM 在潜在空间中运行,因此论文称为潜在扩散模型。调理机制:SD论文内部设计了利用领域特定模型抽取语义信息后,再使用注意力机制[14]与究竟抽取图像的潜在结合。可以达到很泛用又有效的调理。稳定扩散架构与可运行。(资料来源)结合这三者就是构成Stable Diffusion的核心思想,感知图像压缩后的潜在扩散模型让Stable Diffusion可以高效地生成高解析度图像。条件机制则让Stable Diffusion可以具备良好的可控制性,完成各个式各样结合其他描述的生成任务。感知图像压缩一般简单的自动编码器虽然很容易重建,也可以有效地压缩潜在的大小,但是解码器重建的图形实际上经常是有一些模糊的,甚至有一些不真实的工件产生。常见自动编码器的概念。(资料来源)
Diffusion Model 是如何制作的?生成图片的第一步: 生成 一个都是杂讯的图片,生成图片的大小和目标图片大小一致。然后进行 denoise,就是过滤掉先前图片中的部分杂讯不断进行 denoise,最后得到一张清晰的图片每一步 denoise 都有一个编号,越之后的步骤的 denoise 的编号越小从杂讯到图片的过程称为 reverse process。跟雕塑一样denoise 的模型,除了需要输入一张图片之外,还要一个代表当前图片 noise 的程度的输入。Denoise 模组内部实际做的事情denoise 模组内部有一个 noise predicter,预测图片中的杂讯长什么样,需要输入一张图片和图片的 noise 程度,然后输出一张输入图片的杂讯,减去输入图片,达到 denoise 的效果直接产生一张更清晰的图片比产生一种 noise 图片更难,所以现在大部分模型都会选择先产生一张 noise 的图片如何训练 noise predictor?对图片不断加 noise把某次加noise后的图片作为输入,对应的 noise 就是它的输出Text-to-Image训练 文字-
caroline
计算机专业学生