出发点:作为指导 LLMs 的关键技术,提示工程利用特定设计的提示来提高模型在复杂自然语言处理任务上的性能,增强生成的准确性和稳定性,同时保持上下文一致性和逻辑连贯性。方法:Vision Full-view prompt (VF prompt)为 AR图像生成设计专门的图像相关的 VF提示,以模拟人类图像创作的过程。通过让模型先感知整体分布信息来增强上下文逻辑能力,并通过推理步骤来提高生成稳定性。基本思路:指导模型在生成过程中首先掌握整体视觉信息,然后逐步生成局部细节。具体而言,设计用于 AR图像生成模型的 专业 VF 提示,模拟人类创作图像的过程,指导模型首先感知视觉全视角信息,然后生成图像。VF 通过 增加 推理步骤增强了模型的上下文逻辑能力,提高了生成的稳定性。PreliminaryAutoRegressive Modeling:图像:$W\times H\times 3$ ,量化为 $h\times w$ 形式的 discrete tokens map $X$,其中 $h = H/p, w = W/p$,$p$ 是 tokenizer 的下采样率。根据光栅扫描顺序,$X$ 变形
Abstract研究的问题:是否能从单张参考图像中捕捉多个新概念?现有的方法未能保持与参考图像的视觉一致性,并消除了概念之间的交叉影响。方法:an attention calibration mechanism,以改善 文本生成图像 模型的 概念层面的理解能力。首先引入新的可学习修饰符 (learnable modifiers),将其与类别绑定,以捕捉多个概念的属性。在 cross-attention 操作激活后,类别 分离并增强,以确保概念的全面性和独立性。抑制不同类别注意力的激活,以减轻概念之间的相互影响。提出的方法被称为 DisenDiff:可以从单张图片中学习被解耦的多重概念 (disentangled multiple concepts)提出的方法 与 LoRA 和 图像修复流程 (inpainting pipelines) 兼容,从而实现更具交互性的体验。Introduction个性化 文本到图像 模型 旨在 学习一个新的 词嵌入 (word embedding) 以表示特定概念。然而 现有方法仍缺乏灵活性,无法在给定的图像中渲染所有现有概念,或只关注特定概念。复杂场景中出
问题:现有的大多数方法 采用 基于编码器的语言模型架构,由于数据标注费用昂贵,只能在有限数量的图像文本对上预训练,导致 图像生成质量和稳定性 欠缺。现状:大语言模型迅速发展,大语言模型是 decoder-only 结构,可以在大规模的 无标签文本数据 上训练。有些尝试 利用 LLM 的能力增强 文本生成图像 的 diffusion model 的性能,他们的方法是尝试丰富或改写 用户的文本提示 去引导 diffusion model 的 图像生成过程。主要采用间接方法来弥合两者之间的差距,因此受到低效文本编码器的限制。方法:利用 大语言模型 文本语义理解的优势,改进 文本生成图像 的 diffusion model。在 denoising U-Net 的 cross-attention 部分 附加一个 简单高效的 网络模块,这个模块可以高效地将 语言模型中的 block-wise representations 整合,以生成输入文本提示的文本编码,以此能够利用 预训练的大语言模型 精确地捕捉 语义信息 和 文字之间的上下文依赖。完全放弃文本编码器,使得 text-to-image di
标题:Object Detection in 20 Years: A Survey发表时间:2019年pdf 链接:https://arxiv.org/pdf/1905.05055v2这篇文章回顾了400多篇关于目标检测的论文(从上个世纪九十年代到2019年),涵盖了许多话题。关键词:目标检测(Object detection)、计算机视(Computer vision)、深度学习(Deep learning)、卷积神经网络(Convolutional neural networks)、技术进步。1 介绍应用的角度:object detection 可以分为 "general object detection" 和 "detection application"。general object detection:探索不同的方法检测不同的物体以模拟人类的视觉和认知。detection appliction:探索特定应用场景,如:行人检测、人脸检测、文本检测 等。第二个部介绍目标检测20年的进化历史。第三部分介绍目标检测的一些加速技术。第四部分介绍近三年来一些最先进的检测方法(2019)。
caroline
计算机专业学生