大模型时代的视觉知识:回顾与展望Visual Knowledge in the Big Model Era: Retrospect and Prospect原文地址:https://www.fitee.zjujournals.com/zh/article/doi/10.1631/FITEE.2400250/1 Introduction视觉知识的概念,最近作为一种 知识表征 (representation) 形式 提出,这种形式与传统知识形式有所不同(例如,知识图谱,手工制作的图像描述符,分布式视觉特征)。基于人类心理意象的认知研究,人类心理意象使我们能够在脑海中操作视觉实体。⭐视觉知识理论认为,下一代AI需要充分表达视觉概念及其属性(例如,形状,结构,运动,可用性),并通过统一的、抽象的和可解释的表征形式,对其转化、组合、比较、预测和叙述进行推理。大型 AI 模型仍然存在几个缺陷,这些缺陷影响了它们的可靠性和有效性:最主要的是它们明显的 不透明性,这对信任、问责和有效调试带来了巨大挑战以及它们 对数据和计算资源的贪婪需求,这引发了伦理和环境问题。这些局限性源自其初级前身,但因其高度复杂
参考:https://zhuanlan.zhihu.com/p/623557803https://www.bilibili.com/video/BV1TecTeoErXChain of Thought1 提出论文地址:https://arxiv.org/abs/2201.11903最早提出是在2022年5月谷歌发表的《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》文章中。论文的提出方法的出发点是:大语言模型扩大规模 能带来性能的提高,但是在 算术、思维推理等具有挑战性的任务上 难以实现高性能。推理技术可以通过生成自然语言推理过程 (retionales) 来帮助得出最终答案。前人的工作:赋予模型生成自然语言中间步骤的能力方法:从头开始训练或微调或使用形式语言的方法缺点:创建大规模高质量的推理过程代价昂贵通过 prompting 提供了上下文少样本学习方式 (few-shot learning)缺点:推理能力表现不佳论文的思路:避免这些局限性同时结合两者优势。方法:chain-of-though
1 基础环境pytorch 环境: pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118运行设备:单GPU卡(英伟达 4060 8G)运行环境:win112 部分 python 包的介绍pytorch-lightning 包的 LightningModule 模块抽象出大量样板代码(如设备管理、分布式训练、日志记录等),使得开发者可以专注于模型的核心逻辑。是 PyTorch 模型的封装类,用于组织和管理深度学习模型的训练、验证、测试以及推理过程。它的主要目标是将模型逻辑与工程实现分离,使代码更加清晰、可维护且易于扩展。通过继承 LightningModule,用户可以定义模型的架构、优化器、损失函数、数据处理逻辑以及其他训练相关的组件,而无需手动处理繁琐的细节(如 GPU 分配、分布式训练等)。pytorch-lightning 包的 LightningModule 模块LightningDataModule 是 pytorch-lightning 中用于
出发点:作为指导 LLMs 的关键技术,提示工程利用特定设计的提示来提高模型在复杂自然语言处理任务上的性能,增强生成的准确性和稳定性,同时保持上下文一致性和逻辑连贯性。方法:Vision Full-view prompt (VF prompt)为 AR图像生成设计专门的图像相关的 VF提示,以模拟人类图像创作的过程。通过让模型先感知整体分布信息来增强上下文逻辑能力,并通过推理步骤来提高生成稳定性。基本思路:指导模型在生成过程中首先掌握整体视觉信息,然后逐步生成局部细节。具体而言,设计用于 AR图像生成模型的 专业 VF 提示,模拟人类创作图像的过程,指导模型首先感知视觉全视角信息,然后生成图像。VF 通过 增加 推理步骤增强了模型的上下文逻辑能力,提高了生成的稳定性。PreliminaryAutoRegressive Modeling:图像:$W\times H\times 3$ ,量化为 $h\times w$ 形式的 discrete tokens map $X$,其中 $h = H/p, w = W/p$,$p$ 是 tokenizer 的下采样率。根据光栅扫描顺序,$X$ 变形
Abstract研究的问题:是否能从单张参考图像中捕捉多个新概念?现有的方法未能保持与参考图像的视觉一致性,并消除了概念之间的交叉影响。方法:an attention calibration mechanism,以改善 文本生成图像 模型的 概念层面的理解能力。首先引入新的可学习修饰符 (learnable modifiers),将其与类别绑定,以捕捉多个概念的属性。在 cross-attention 操作激活后,类别 分离并增强,以确保概念的全面性和独立性。抑制不同类别注意力的激活,以减轻概念之间的相互影响。提出的方法被称为 DisenDiff:可以从单张图片中学习被解耦的多重概念 (disentangled multiple concepts)提出的方法 与 LoRA 和 图像修复流程 (inpainting pipelines) 兼容,从而实现更具交互性的体验。Introduction个性化 文本到图像 模型 旨在 学习一个新的 词嵌入 (word embedding) 以表示特定概念。然而 现有方法仍缺乏灵活性,无法在给定的图像中渲染所有现有概念,或只关注特定概念。复杂场景中出
参考:https://www.bilibili.com/video/BV1TecTeoErX随着大模型参数量、算力开销、数据量协同增长,在标准提示下,其在 System-1 任务上性能显著增强。然而,在 System-2 任务上,大模型表现出了 "Flat Scaling Curves" 现象——即模型规模增长未带来预期性能提升。面对 System-1 问题,如 常识回答、情感分类、意图识别 等,随规模变大,大模型性能显著提升面对 System-2 问题,如 复杂数学计算、逻辑推理 等,大模型性能 提升缓慢甚至停滞不前。思维链:通过在提示中嵌入一系列 中间推理步骤,引导大语言模型模拟人类解决问题时的思考过程,以提升模型处理 System2任务的能力。在标准的 CoT 方法上,出现了许多扩展的方法:按部就班、三思后行、集思广益按部就班:在按部就班模式中,模型一步接着一步地进行推理,推理路径形成了一条逻辑连贯的链条。以 CoT、Zero-Shot CoT、Auto-CoT 等方法为代表。强调:逻辑的连贯性和步骤的顺序性Zero-Shot CoT:使用两阶段回答问题:第一阶段,在问题后面跟上
问题:现有的大多数方法 采用 基于编码器的语言模型架构,由于数据标注费用昂贵,只能在有限数量的图像文本对上预训练,导致 图像生成质量和稳定性 欠缺。现状:大语言模型迅速发展,大语言模型是 decoder-only 结构,可以在大规模的 无标签文本数据 上训练。有些尝试 利用 LLM 的能力增强 文本生成图像 的 diffusion model 的性能,他们的方法是尝试丰富或改写 用户的文本提示 去引导 diffusion model 的 图像生成过程。主要采用间接方法来弥合两者之间的差距,因此受到低效文本编码器的限制。方法:利用 大语言模型 文本语义理解的优势,改进 文本生成图像 的 diffusion model。在 denoising U-Net 的 cross-attention 部分 附加一个 简单高效的 网络模块,这个模块可以高效地将 语言模型中的 block-wise representations 整合,以生成输入文本提示的文本编码,以此能够利用 预训练的大语言模型 精确地捕捉 语义信息 和 文字之间的上下文依赖。完全放弃文本编码器,使得 text-to-image di
1 DeepSeek LLMScaling Laws问题:早期关于最优模型/数据扩大分配策略的研究展示了不同的结论,引发了对规模定律普遍适用性的质疑。此外,这些研究通常缺乏对超参数设置的完整描述,无法确定在不同计算预算下模型是否达到了最佳性能。工作:建立了超参数的缩放规律,为确定最佳超参数提供了一个经验框架。采用 FLOPs/token M 表示模型规模,得到更准确的最优模型/数据扩展分配策略,并更好地预测大规模模型的泛化损失。预训练数据的质量影响最优模型/数据扩展配置策略。数据质量越高,越应该将增加的计算预算分配给模型(model)扩展。Alignment对齐流程包含两个阶段:Supervised Fine-TuningDirect Perference Optimization Algorithm2 DeepSeek-V2MoE 语言模型,经济的训练 和 高效的推理创新的架构:Multi-head Latent Attention(MLA) 和 DeepSeekMoE进一步工作:Supervised Fine-Tuning (SFT) 和 Reinforcement Learnin
学习路线参考:MOE奠基论文走读,Adaptive Mixtures of Local Experts!1 Adaptive Mixtures of Local Experts原文:https://www.researchgate.net/publication/233806999_Adaptive_Mixtures_of_Local_Experts简介:一种新的监督学习过程(supervised learning procedure),适用于由多个独立网络组成的系统,每个网络处理完整训练案例集的子集。可以看成 multilayer supervised network 的 模块化版本,或者 竞争性学习 的 关联版本。Making Associative Learning Competitive出发点:单一的多层网络,在不同场合执行不同的子任务,通常会出现强烈的干扰效应,导致学习缓慢和泛化能力差。解决:如果事先知道一组训练案例分为几个子集,这些子集对应不同的子任务,那么可以通过使用由 多个不同的“专家”网络("expert" network)组成的系统,加上一个决策网络来决定每个训练
原文:Adding Conditional Control to Text-to-Image Diffusion Models1 简介出发点:文本提示单独精确表达复杂的布局、姿势、形状和形式可能是困难的。希望让用户提供额外的图像来实现更细粒度的空间控制,这些图像直接指定其期望的图像构图。ControlNet: 端到端神经网络架构,用于学习大型训练文本到图像扩散模型的条件控制。锁定扩散模型的参数来保持大模型的质量和能力制作了一个可训练副本来处理其编码层把预训练模型视为学习多样化条件控制的主干可训练副本与原始锁定模型通过零卷积层连接,其权重初始化为零,并在训练过程中逐渐增长。2 方法2.1 ControlNetControlNet 将额外条件注入到神经网络的块中。方法:锁定 原始块 并创建一个可训练的副本,并通过零卷积层连接它们,即,1×1卷积,权重和偏差均初始化为零。这里 c 是添加到网络中的条件向量。假设 $\mathcal F(\cdot; \Theta)$ 是一个经过训练的神经块(一组通常组合在一起形成神经网络单元的神经层),参数为 $\Theta$ 。将输入特征图 $x$ 转换为
caroline
计算机专业学生