出发点:作为指导 LLMs 的关键技术,提示工程利用特定设计的提示来提高模型在复杂自然语言处理任务上的性能,增强生成的准确性和稳定性,同时保持上下文一致性和逻辑连贯性。方法:Vision Full-view prompt (VF prompt)为 AR图像生成设计专门的图像相关的 VF提示,以模拟人类图像创作的过程。通过让模型先感知整体分布信息来增强上下文逻辑能力,并通过推理步骤来提高生成稳定性。基本思路:指导模型在生成过程中首先掌握整体视觉信息,然后逐步生成局部细节。具体而言,设计用于 AR图像生成模型的 专业 VF 提示,模拟人类创作图像的过程,指导模型首先感知视觉全视角信息,然后生成图像。VF 通过 增加 推理步骤增强了模型的上下文逻辑能力,提高了生成的稳定性。PreliminaryAutoRegressive Modeling:图像:$W\times H\times 3$ ,量化为 $h\times w$ 形式的 discrete tokens map $X$,其中 $h = H/p, w = W/p$,$p$ 是 tokenizer 的下采样率。根据光栅扫描顺序,$X$ 变形
Abstract研究的问题:是否能从单张参考图像中捕捉多个新概念?现有的方法未能保持与参考图像的视觉一致性,并消除了概念之间的交叉影响。方法:an attention calibration mechanism,以改善 文本生成图像 模型的 概念层面的理解能力。首先引入新的可学习修饰符 (learnable modifiers),将其与类别绑定,以捕捉多个概念的属性。在 cross-attention 操作激活后,类别 分离并增强,以确保概念的全面性和独立性。抑制不同类别注意力的激活,以减轻概念之间的相互影响。提出的方法被称为 DisenDiff:可以从单张图片中学习被解耦的多重概念 (disentangled multiple concepts)提出的方法 与 LoRA 和 图像修复流程 (inpainting pipelines) 兼容,从而实现更具交互性的体验。Introduction个性化 文本到图像 模型 旨在 学习一个新的 词嵌入 (word embedding) 以表示特定概念。然而 现有方法仍缺乏灵活性,无法在给定的图像中渲染所有现有概念,或只关注特定概念。复杂场景中出
问题:现有的大多数方法 采用 基于编码器的语言模型架构,由于数据标注费用昂贵,只能在有限数量的图像文本对上预训练,导致 图像生成质量和稳定性 欠缺。现状:大语言模型迅速发展,大语言模型是 decoder-only 结构,可以在大规模的 无标签文本数据 上训练。有些尝试 利用 LLM 的能力增强 文本生成图像 的 diffusion model 的性能,他们的方法是尝试丰富或改写 用户的文本提示 去引导 diffusion model 的 图像生成过程。主要采用间接方法来弥合两者之间的差距,因此受到低效文本编码器的限制。方法:利用 大语言模型 文本语义理解的优势,改进 文本生成图像 的 diffusion model。在 denoising U-Net 的 cross-attention 部分 附加一个 简单高效的 网络模块,这个模块可以高效地将 语言模型中的 block-wise representations 整合,以生成输入文本提示的文本编码,以此能够利用 预训练的大语言模型 精确地捕捉 语义信息 和 文字之间的上下文依赖。完全放弃文本编码器,使得 text-to-image di
HCP Diffusion 官方文档1.01 loRA讲解视频:LoRA explained (and a bit about precision and quantization)关键:秩分解 + 对低秩矩阵进行微调训练$$ W_0 + \Delta W = W_0 + BAW_0 + \Delta W = W_0 + BA $$$W_0$ 是保持不变的原始模型权重A 和 B 是低秩矩阵:$B\in \mathbb{R}^{d\times r},A\in \mathbb{R}^{r\times k},rank\ r\ll \min(d,k)$ 有:$BA = \Delta W$初始化:$B$ 初始化为零矩阵,$A$ 的权重从正态分布中采样在 transformer 中,它通常应用于 attention weights前向传播:输入数据同时通过原始模型和低秩矩阵进行计算。结果相加,得到最终输出。$$ h = W_0 x + \Delta Wx = W_0 x + BAx $$def regular_forward_matmul(x, W): h = x @ w return h
Stable Models 阅读摘选稳定扩散的关键要素从大方向来看,稳定扩散可以分解三个重要元素:感知图像压缩:先将图像透过感知图像编码器&解码器(VQ-VAE [12]和VQ-GAN [13]风格)降低解析度后,直接在降解析度的图像上,或者说特征图上,进行 DDPM 的训练。潜在扩散模型:基本上就是 DDPM 的描述方法,不过这个 DM 在潜在空间中运行,因此论文称为潜在扩散模型。调理机制:SD论文内部设计了利用领域特定模型抽取语义信息后,再使用注意力机制[14]与究竟抽取图像的潜在结合。可以达到很泛用又有效的调理。稳定扩散架构与可运行。(资料来源)结合这三者就是构成Stable Diffusion的核心思想,感知图像压缩后的潜在扩散模型让Stable Diffusion可以高效地生成高解析度图像。条件机制则让Stable Diffusion可以具备良好的可控制性,完成各个式各样结合其他描述的生成任务。感知图像压缩一般简单的自动编码器虽然很容易重建,也可以有效地压缩潜在的大小,但是解码器重建的图形实际上经常是有一些模糊的,甚至有一些不真实的工件产生。常见自动编码器的概念。(资料来源)
Diffusion Model 是如何制作的?生成图片的第一步: 生成 一个都是杂讯的图片,生成图片的大小和目标图片大小一致。然后进行 denoise,就是过滤掉先前图片中的部分杂讯不断进行 denoise,最后得到一张清晰的图片每一步 denoise 都有一个编号,越之后的步骤的 denoise 的编号越小从杂讯到图片的过程称为 reverse process。跟雕塑一样denoise 的模型,除了需要输入一张图片之外,还要一个代表当前图片 noise 的程度的输入。Denoise 模组内部实际做的事情denoise 模组内部有一个 noise predicter,预测图片中的杂讯长什么样,需要输入一张图片和图片的 noise 程度,然后输出一张输入图片的杂讯,减去输入图片,达到 denoise 的效果直接产生一张更清晰的图片比产生一种 noise 图片更难,所以现在大部分模型都会选择先产生一张 noise 的图片如何训练 noise predictor?对图片不断加 noise把某次加noise后的图片作为输入,对应的 noise 就是它的输出Text-to-Image训练 文字-
caroline
计算机专业学生