caroline's world

caroline's world

个人学习记录博客

Decoder-Only LLMs are Better Controllers for Diffusion Models

问题：现有的大多数方法采用基于编码器的语言模型架构，由于数据标注费用昂贵，只能在有限数量的图像文本对上预训练，导致图像生成质量和稳定性欠缺。现状：大语言模型迅速发展，大语言模型是 decoder-only 结构，可以在大规模的无标签文本数据上训练。有些尝试利用 LLM 的能力增强文本生成图像的 diffusion model 的性能，他们的方法是尝试丰富或改写用户的文本提示去引导 diffusion model 的图像生成过程。主要采用间接方法来弥合两者之间的差距，因此受到低效文本编码器的限制。方法：利用大语言模型文本语义理解的优势，改进文本生成图像的 diffusion model。在 denoising U-Net 的 cross-attention 部分附加一个简单高效的网络模块，这个模块可以高效地将语言模型中的 block-wise representations 整合，以生成输入文本提示的文本编码，以此能够利用预训练的大语言模型精确地捕捉语义信息和文字之间的上下文依赖。完全放弃文本编码器，使得 text-to-image di

论文学习·生成式人工智能 · 2025-03-10

DeepSeek

1 DeepSeek LLMScaling Laws问题：早期关于最优模型/数据扩大分配策略的研究展示了不同的结论，引发了对规模定律普遍适用性的质疑。此外，这些研究通常缺乏对超参数设置的完整描述，无法确定在不同计算预算下模型是否达到了最佳性能。工作：建立了超参数的缩放规律，为确定最佳超参数提供了一个经验框架。采用 FLOPs/token M 表示模型规模，得到更准确的最优模型/数据扩展分配策略，并更好地预测大规模模型的泛化损失。预训练数据的质量影响最优模型/数据扩展配置策略。数据质量越高，越应该将增加的计算预算分配给模型（model）扩展。Alignment对齐流程包含两个阶段：Supervised Fine-TuningDirect Perference Optimization Algorithm2 DeepSeek-V2MoE 语言模型，经济的训练和高效的推理创新的架构：Multi-head Latent Attention(MLA) 和 DeepSeekMoE进一步工作：Supervised Fine-Tuning (SFT) 和 Reinforcement Learnin

论文学习·生成式人工智能 · 2025-03-04

DeepSeek

Mixture of Experts

学习路线参考：MOE奠基论文走读，Adaptive Mixtures of Local Experts！1 Adaptive Mixtures of Local Experts原文：https://www.researchgate.net/publication/233806999_Adaptive_Mixtures_of_Local_Experts简介：一种新的监督学习过程（supervised learning procedure），适用于由多个独立网络组成的系统，每个网络处理完整训练案例集的子集。可以看成 multilayer supervised network 的模块化版本，或者竞争性学习的关联版本。Making Associative Learning Competitive出发点：单一的多层网络，在不同场合执行不同的子任务，通常会出现强烈的干扰效应，导致学习缓慢和泛化能力差。解决：如果事先知道一组训练案例分为几个子集，这些子集对应不同的子任务，那么可以通过使用由多个不同的“专家”网络（"expert" network）组成的系统，加上一个决策网络来决定每个训练

论文学习·生成式人工智能 · 2025-03-03

Mixture of Experts

ControlNet

原文：Adding Conditional Control to Text-to-Image Diffusion Models1 简介出发点：文本提示单独精确表达复杂的布局、姿势、形状和形式可能是困难的。希望让用户提供额外的图像来实现更细粒度的空间控制，这些图像直接指定其期望的图像构图。ControlNet: 端到端神经网络架构，用于学习大型训练文本到图像扩散模型的条件控制。锁定扩散模型的参数来保持大模型的质量和能力制作了一个可训练副本来处理其编码层把预训练模型视为学习多样化条件控制的主干可训练副本与原始锁定模型通过零卷积层连接，其权重初始化为零，并在训练过程中逐渐增长。2 方法2.1 ControlNetControlNet 将额外条件注入到神经网络的块中。方法：锁定原始块并创建一个可训练的副本，并通过零卷积层连接它们，即，1×1卷积，权重和偏差均初始化为零。这里 c 是添加到网络中的条件向量。假设 $\mathcal F(\cdot; \Theta)$ 是一个经过训练的神经块（一组通常组合在一起形成神经网络单元的神经层），参数为 $\Theta$ 。将输入特征图 $x$ 转换为

论文学习·生成式人工智能 · 2025-02-23

ControlNet

Stable Diffusion Fine-tuning

李宏毅《生成式人工智能导论》第十次作业代码（课程提供了源码）的学习参考：https://blog.csdn.net/a131529/article/details/144342428https://colab.research.google.com/drive/1dI_-HVggxyIwDVoreymviwg6ZOvEHiLS?usp=sharing#scrollTo=CnJtiRaRuTFX1 准备工作安装必备的包：pip -q install timm==1.0.7 pip -q install fairscale==0.4.13 pip -q install transformers==4.41.2 pip -q install requests==2.32.3 pip -q install accelerate==0.31.0 pip -q install diffusers==0.29.1 pip -q install einop==0.0.1 pip -q install safetensors==0.4.3 pip -q install voluptuous==0.15.

生成式人工智能 · 2025-02-23

Stable Diffusion Fine-tuning

LLM Fine-tuning

李宏毅《生成式人工智能导论》第五次作业代码（课程提供了源码）的学习参考：李宏毅生成式人工智能导论 HW51 准备阶段安装必备包：!pip install bitsandbytes==0.43.0 !pip install datasets==2.10.1 !pip install transformers==4.38.2 !pip install peft==0.9.0 !pip install sentencepiece==0.1.99 !pip install -U accelerate==0.28.0 !pip install colorama==0.4.6 !pip install fsspec==2023.9.2pytorch 版本是：2.6.0+cu118，cu126版本的pytorch似乎和 bitsandbytes 冲突出现bug。加载包：import os import sys import argparse import json import warnings import logging warnings.filterwarnings("ignore

生成式人工智能 · 2025-02-22

LLM Fine-tuning

LoRA

原文：LoRA: Low-Rank Adaptation of Large Language Models1 简介冻结预训练模型的权重，在 Transformer 架构的每一层注入可训练的秩分解矩阵，从而大大减少了下游任务的可训练参数数量。术语：the input and output dimension size of a Transformer layer: $d_{model}$the query/key/value/output projection matrices in the self-attention module: $W_q,W_k, W_v, W_o$the pretrained weight matrix: $W$ ($W_0$)accumulated gradient update during adaption: $\Delta W$the rank of a LoRA module: $r$Transformer MLP feedforward dimension $d_{ffn} = 4\times d_{model}$问题描述：给定一个由 $\Phi

论文学习·生成式人工智能 · 2025-02-21

LoRA

计算机网络课程笔记

1 计算机网络和因特网1.1 什么是计算机网络数十亿台互联计算设备主机 = 终端系统运行网络应用程序端系统通过通信链路和分组交换机连接到一起。通信链路光纤、铜缆、无线电、卫星传输速率：带宽分组交换机 packet switches：转发分组（数据块 chunks of data）路由器和链路层交换机因特网：网络的网络 network of networks互联的ISP端系统通过因特网服务提供商 (ISP) 接入因特网。协议控制消息的发送和接收TCP，IP，HTTP，Skype，802.11因特网RFC：征求意见IETF：互联网工程任务组互联网为应用程序提供服务的基础设施网站，VoIP，电子邮件，游戏，电子商务，社交网络等涉及多个相互交换系统的端系统：分布式应用程序。端系统提供套接字接口，该接口规定了运行在一个端系统上的程序请求因特网基础设施向运行在另一个端系统上的特定目的地程序交付数据的方式。互联网为应用程序提供编程接口允许发送和接收应用程序以“连接”到互联网的钩子 hooks提供类似于邮政服务的服务选项协议 protocol 的定义：协议定义了在两个

计算机课程 · 2025-01-24

计算机网络课程笔记

高性能程序设计笔记

并行程序设计导论1 为什么要并行化1.1 为什么需要不断提升的性能不断提升的计算能力称为许多飞速发展领域的核心力量气候模拟蛋白质折叠药物发现能源研究数据分析1.2 为什么需要构建并行系统单处理器性能提升的主要原因之一：日益增加的集成电路晶体管密度。通过继续增快继承电路的速度来提高处理器性能的方法变得不再可行。如何利用不断增加的晶体管密度：并行。集成电路制造商：在单个芯片上放置多个处理器。（多核处理器）1.3 为什么需要编写并行程序串行程序改写为并行程序。最好的并行化，可能通过一步步回溯，然后发现一个全新的算法来得到。代码分析：计算 n 数的值再累加求和，串行代码：sum = 0; for(i=0; i<n; i++){ x = Compute_next_value(...); sum += x; }假设有 p 个核，且 p 远小于 n，那么每个核能够计算大约 n/p 个数的值并累加求和，以得到部分和：my_sum = 0; my_first_i = ...; my_last_i = ...; for(my_i = my_first_i; my_i < my_

计算机课程 · 2025-01-24

高性能程序设计笔记

神经网络模型学习

1 卷积神经网络Convolutional Neural Network (CNN)卷积神经网络由三个主要部分组成：卷积层 (convolutional layers)池化层 (pooling layers)全连接层 (fully connected layers)应用于数字识别的CNN架构[source]1.1 卷积层输入：大小 $W\times H\times C$（W 宽，H 高，C 通道数对于初始的图像，通道数为颜色维度，RGB的 channel size = 3）主要的数学运算：卷积（对图像的像素矩阵应用的滑动窗口函数）卷积操作的目的：从输入图像中提取高级特征。通过应用多个不同的 filter (大小相同) 来提取不同的图像特征。每个 filter 以一定步长stride 遍历整张图片。以手写数字识别为例，filter 可以用于识别数字的曲线，边缘，数字的整体形状等对输入预处理：padding 填充Valid padding：不进行任何填充，卷积操作后特征图的尺寸会减小。Same padding：进行填充，使得卷积操作后特征图的尺寸与输入图像的尺寸相同。使用 $3\ti

论文学习·生成式人工智能 · 2024-11-17

神经网络模型学习

Theme Jasmine by Kent Liao

赣ICP备2024043307号赣公网安备36060002000103号