分类生成式人工智能下的文章 - caroline's world

A stochastic grammar of images

论文地址：https://www.nowpublishers.com/article/Details/CGV-018摘要这篇探索性论文旨在探寻一种随机且上下文敏感的图像语法。该语法应实现以下四个目标，从而为大量物体类别提供统一的表示、学习和识别框架。该语法通过终端节点和非终端节点来表示从场景到物体、部件、基本元素和像素的层次分解，并通过节点之间的水平链接来表示空间和功能关系的上下文。它将每个物体类别定义为语法所能生成的所有可能有效配置的集合。该语法以简单的 “与或”图表示形式体现：每个 “或” 节点指向替代的子配置“与” 节点分解为若干组件。这种形式支持在贝叶斯框架下进行递归的自顶向下/自底向上的图像解析过程，且便于在复杂度上进行扩展。对于给定的输入图像，图像解析任务会实时构建出最可能的解析图作为输出解释，而此解析图是“与或” 图的一个子图。在该与或图上定义一个概率模型，以考虑对象和部件的自然出现频率及其关系。该模型从每个类别的相对较小的训练集中学习，然后进行采样以合成大量配置，从而涵盖测试集中的新对象实例。这种泛化能力在判别式机器学习方法中大多缺失。为了填补符号

论文学习·生成式人工智能 · 05-20

A stochastic grammar of images

大模型时代的视觉知识：回顾与展望

大模型时代的视觉知识：回顾与展望Visual Knowledge in the Big Model Era: Retrospect and Prospect原文地址：https://www.fitee.zjujournals.com/zh/article/doi/10.1631/FITEE.2400250/1 Introduction视觉知识的概念，最近作为一种知识表征 (representation) 形式提出，这种形式与传统知识形式有所不同（例如，知识图谱，手工制作的图像描述符，分布式视觉特征）。基于人类心理意象的认知研究，人类心理意象使我们能够在脑海中操作视觉实体。⭐视觉知识理论认为,下一代AI需要充分表达视觉概念及其属性（例如，形状，结构，运动，可用性），并通过统一的、抽象的和可解释的表征形式，对其转化、组合、比较、预测和叙述进行推理。大型 AI 模型仍然存在几个缺陷，这些缺陷影响了它们的可靠性和有效性：最主要的是它们明显的不透明性，这对信任、问责和有效调试带来了巨大挑战以及它们对数据和计算资源的贪婪需求，这引发了伦理和环境问题。这些局限性源自其初级前身，但因其高度复杂

论文学习·生成式人工智能 · 04-06

大模型时代的视觉知识：回顾与展望

CoT 报告 [课题组汇报]

参考：https://zhuanlan.zhihu.com/p/623557803https://www.bilibili.com/video/BV1TecTeoErXChain of Thought1 提出论文地址：https://arxiv.org/abs/2201.11903最早提出是在2022年5月谷歌发表的《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》文章中。论文的提出方法的出发点是：大语言模型扩大规模能带来性能的提高，但是在算术、思维推理等具有挑战性的任务上难以实现高性能。推理技术可以通过生成自然语言推理过程 (retionales) 来帮助得出最终答案。前人的工作：赋予模型生成自然语言中间步骤的能力方法：从头开始训练或微调或使用形式语言的方法缺点：创建大规模高质量的推理过程代价昂贵通过 prompting 提供了上下文少样本学习方式 (few-shot learning)缺点：推理能力表现不佳论文的思路：避免这些局限性同时结合两者优势。方法：chain-of-though

论文学习·生成式人工智能 · 03-28

VQ-VAE 代码实践

1 基础环境pytorch 环境： pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118运行设备：单GPU卡（英伟达 4060 8G）运行环境：win112 部分 python 包的介绍pytorch-lightning 包的 LightningModule 模块抽象出大量样板代码（如设备管理、分布式训练、日志记录等），使得开发者可以专注于模型的核心逻辑。是 PyTorch 模型的封装类，用于组织和管理深度学习模型的训练、验证、测试以及推理过程。它的主要目标是将模型逻辑与工程实现分离，使代码更加清晰、可维护且易于扩展。通过继承 LightningModule，用户可以定义模型的架构、优化器、损失函数、数据处理逻辑以及其他训练相关的组件，而无需手动处理繁琐的细节（如 GPU 分配、分布式训练等）。pytorch-lightning 包的 LightningModule 模块LightningDataModule 是 pytorch-lightning 中用于

生成式人工智能 · 03-25

Autoregressive Image Generation with Vision Full-view Prompt

出发点：作为指导 LLMs 的关键技术，提示工程利用特定设计的提示来提高模型在复杂自然语言处理任务上的性能，增强生成的准确性和稳定性，同时保持上下文一致性和逻辑连贯性。方法：Vision Full-view prompt (VF prompt)为 AR图像生成设计专门的图像相关的 VF提示，以模拟人类图像创作的过程。通过让模型先感知整体分布信息来增强上下文逻辑能力，并通过推理步骤来提高生成稳定性。基本思路：指导模型在生成过程中首先掌握整体视觉信息，然后逐步生成局部细节。具体而言，设计用于 AR图像生成模型的专业 VF 提示，模拟人类创作图像的过程，指导模型首先感知视觉全视角信息，然后生成图像。VF 通过增加推理步骤增强了模型的上下文逻辑能力，提高了生成的稳定性。PreliminaryAutoRegressive Modeling：图像：$W\times H\times 3$ ，量化为 $h\times w$ 形式的 discrete tokens map $X$，其中 $h = H/p, w = W/p$，$p$ 是 tokenizer 的下采样率。根据光栅扫描顺序，$X$ 变形

论文学习·生成式人工智能 · 03-15

Attention Calibration for Disentangled Text-to-Image Personalization [CVPR 2024 Oral]

Abstract研究的问题：是否能从单张参考图像中捕捉多个新概念？现有的方法未能保持与参考图像的视觉一致性，并消除了概念之间的交叉影响。方法：an attention calibration mechanism，以改善文本生成图像模型的概念层面的理解能力。首先引入新的可学习修饰符 (learnable modifiers)，将其与类别绑定，以捕捉多个概念的属性。在 cross-attention 操作激活后，类别分离并增强，以确保概念的全面性和独立性。抑制不同类别注意力的激活，以减轻概念之间的相互影响。提出的方法被称为 DisenDiff：可以从单张图片中学习被解耦的多重概念 (disentangled multiple concepts)提出的方法与 LoRA 和图像修复流程 (inpainting pipelines) 兼容，从而实现更具交互性的体验。Introduction个性化文本到图像模型旨在学习一个新的词嵌入 (word embedding) 以表示特定概念。然而现有方法仍缺乏灵活性，无法在给定的图像中渲染所有现有概念，或只关注特定概念。复杂场景中出

论文学习·生成式人工智能 · 03-14

Chain of Thought

参考：https://www.bilibili.com/video/BV1TecTeoErX随着大模型参数量、算力开销、数据量协同增长，在标准提示下，其在 System-1 任务上性能显著增强。然而，在 System-2 任务上，大模型表现出了 "Flat Scaling Curves" 现象——即模型规模增长未带来预期性能提升。面对 System-1 问题，如常识回答、情感分类、意图识别等，随规模变大，大模型性能显著提升面对 System-2 问题，如复杂数学计算、逻辑推理等，大模型性能提升缓慢甚至停滞不前。思维链：通过在提示中嵌入一系列中间推理步骤，引导大语言模型模拟人类解决问题时的思考过程，以提升模型处理 System2任务的能力。在标准的 CoT 方法上，出现了许多扩展的方法：按部就班、三思后行、集思广益按部就班：在按部就班模式中，模型一步接着一步地进行推理，推理路径形成了一条逻辑连贯的链条。以 CoT、Zero-Shot CoT、Auto-CoT 等方法为代表。强调：逻辑的连贯性和步骤的顺序性Zero-Shot CoT：使用两阶段回答问题：第一阶段，在问题后面跟上

生成式人工智能 · 03-10

Chain of Thought

Decoder-Only LLMs are Better Controllers for Diffusion Models

问题：现有的大多数方法采用基于编码器的语言模型架构，由于数据标注费用昂贵，只能在有限数量的图像文本对上预训练，导致图像生成质量和稳定性欠缺。现状：大语言模型迅速发展，大语言模型是 decoder-only 结构，可以在大规模的无标签文本数据上训练。有些尝试利用 LLM 的能力增强文本生成图像的 diffusion model 的性能，他们的方法是尝试丰富或改写用户的文本提示去引导 diffusion model 的图像生成过程。主要采用间接方法来弥合两者之间的差距，因此受到低效文本编码器的限制。方法：利用大语言模型文本语义理解的优势，改进文本生成图像的 diffusion model。在 denoising U-Net 的 cross-attention 部分附加一个简单高效的网络模块，这个模块可以高效地将语言模型中的 block-wise representations 整合，以生成输入文本提示的文本编码，以此能够利用预训练的大语言模型精确地捕捉语义信息和文字之间的上下文依赖。完全放弃文本编码器，使得 text-to-image di

论文学习·生成式人工智能 · 03-10

DeepSeek

1 DeepSeek LLMScaling Laws问题：早期关于最优模型/数据扩大分配策略的研究展示了不同的结论，引发了对规模定律普遍适用性的质疑。此外，这些研究通常缺乏对超参数设置的完整描述，无法确定在不同计算预算下模型是否达到了最佳性能。工作：建立了超参数的缩放规律，为确定最佳超参数提供了一个经验框架。采用 FLOPs/token M 表示模型规模，得到更准确的最优模型/数据扩展分配策略，并更好地预测大规模模型的泛化损失。预训练数据的质量影响最优模型/数据扩展配置策略。数据质量越高，越应该将增加的计算预算分配给模型（model）扩展。Alignment对齐流程包含两个阶段：Supervised Fine-TuningDirect Perference Optimization Algorithm2 DeepSeek-V2MoE 语言模型，经济的训练和高效的推理创新的架构：Multi-head Latent Attention(MLA) 和 DeepSeekMoE进一步工作：Supervised Fine-Tuning (SFT) 和 Reinforcement Learnin

论文学习·生成式人工智能 · 03-04

DeepSeek

Mixture of Experts

学习路线参考：MOE奠基论文走读，Adaptive Mixtures of Local Experts！1 Adaptive Mixtures of Local Experts原文：https://www.researchgate.net/publication/233806999_Adaptive_Mixtures_of_Local_Experts简介：一种新的监督学习过程（supervised learning procedure），适用于由多个独立网络组成的系统，每个网络处理完整训练案例集的子集。可以看成 multilayer supervised network 的模块化版本，或者竞争性学习的关联版本。Making Associative Learning Competitive出发点：单一的多层网络，在不同场合执行不同的子任务，通常会出现强烈的干扰效应，导致学习缓慢和泛化能力差。解决：如果事先知道一组训练案例分为几个子集，这些子集对应不同的子任务，那么可以通过使用由多个不同的“专家”网络（"expert" network）组成的系统，加上一个决策网络来决定每个训练

论文学习·生成式人工智能 · 03-03

Mixture of Experts

Theme Jasmine by Kent Liao

赣ICP备2024043307号赣公网安备36060002000103号