参考:https://zhuanlan.zhihu.com/p/623557803https://www.bilibili.com/video/BV1TecTeoErXChain of Thought1 提出论文地址:https://arxiv.org/abs/2201.11903最早提出是在2022年5月谷歌发表的《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》文章中。论文的提出方法的出发点是:大语言模型扩大规模 能带来性能的提高,但是在 算术、思维推理等具有挑战性的任务上 难以实现高性能。推理技术可以通过生成自然语言推理过程 (retionales) 来帮助得出最终答案。前人的工作:赋予模型生成自然语言中间步骤的能力方法:从头开始训练或微调或使用形式语言的方法缺点:创建大规模高质量的推理过程代价昂贵通过 prompting 提供了上下文少样本学习方式 (few-shot learning)缺点:推理能力表现不佳论文的思路:避免这些局限性同时结合两者优势。方法:chain-of-though
参考:https://www.bilibili.com/video/BV1TecTeoErX随着大模型参数量、算力开销、数据量协同增长,在标准提示下,其在 System-1 任务上性能显著增强。然而,在 System-2 任务上,大模型表现出了 "Flat Scaling Curves" 现象——即模型规模增长未带来预期性能提升。面对 System-1 问题,如 常识回答、情感分类、意图识别 等,随规模变大,大模型性能显著提升面对 System-2 问题,如 复杂数学计算、逻辑推理 等,大模型性能 提升缓慢甚至停滞不前。思维链:通过在提示中嵌入一系列 中间推理步骤,引导大语言模型模拟人类解决问题时的思考过程,以提升模型处理 System2任务的能力。在标准的 CoT 方法上,出现了许多扩展的方法:按部就班、三思后行、集思广益按部就班:在按部就班模式中,模型一步接着一步地进行推理,推理路径形成了一条逻辑连贯的链条。以 CoT、Zero-Shot CoT、Auto-CoT 等方法为代表。强调:逻辑的连贯性和步骤的顺序性Zero-Shot CoT:使用两阶段回答问题:第一阶段,在问题后面跟上
1 DeepSeek LLMScaling Laws问题:早期关于最优模型/数据扩大分配策略的研究展示了不同的结论,引发了对规模定律普遍适用性的质疑。此外,这些研究通常缺乏对超参数设置的完整描述,无法确定在不同计算预算下模型是否达到了最佳性能。工作:建立了超参数的缩放规律,为确定最佳超参数提供了一个经验框架。采用 FLOPs/token M 表示模型规模,得到更准确的最优模型/数据扩展分配策略,并更好地预测大规模模型的泛化损失。预训练数据的质量影响最优模型/数据扩展配置策略。数据质量越高,越应该将增加的计算预算分配给模型(model)扩展。Alignment对齐流程包含两个阶段:Supervised Fine-TuningDirect Perference Optimization Algorithm2 DeepSeek-V2MoE 语言模型,经济的训练 和 高效的推理创新的架构:Multi-head Latent Attention(MLA) 和 DeepSeekMoE进一步工作:Supervised Fine-Tuning (SFT) 和 Reinforcement Learnin
监督学习(分类与回归,感知机、逻辑回归;神经网络、反向传播、CNN、RNN);非监督学习(K-means);强化学习(MDP定义、状态值函数和动作值函数、Q学习及SARSA、DQN)决策树例子:打网球例如 , 分类结果:No决策树概念:表示一个函数,该函数将属性值的向量作为输入,并返回一个“决策”(单个输出值)通过执行一系列测试来做出决策。节点:用属性标记边:用属性值标记叶子:用决策标记决策树表示:决策树表示属性值约束的合取的析取上例中的决策树:(Outlook = Sunny ∧ Humidity = Normal) ∨ (Outlook = Overcast) ∨ (Outlook = Rain ∧ Wind = Weak)任何布尔函数都可以写成决策树通过把真值表中的每一行对应树中的路径通常可以使用小树,然后,有些函数需要指数大的树决策树学习:目标:找到一棵与训练样例一致的小树思路:选择“最重要”属性作为(子)树的根信息论我们将使用 信息增益(information gain)的概念,它是用信息论的基本概念——熵(entropy)来定义的熵,是对随机变量不确定性的度量;信息的获取对
第一章绪论人工智能的定义、概况; 人工智能主要学派及主要观点。人工智能的定义人工智能(AI)是研究理解和模拟人类智能、智能行为及其规律的一门学科。主要任务:建立智能信息处理理论,进而设计可以展现某些近似人类智能行为的计算系统。主要学派逻辑学派(符号主义方法)认知基元是符号,智能行为通过符号操作来实现,以 Robinson 提出的归结原理为基础,以 LISP 和 Prolog 语言为代表。着重问题求解中启发式搜索和推理过程,在逻辑思维的模拟方面取得成功,如自动定理证明和专家系统。人工智能源于数理逻辑数理逻辑的形式化方法和计算机科学不谋而合。正是数理逻辑对计算的追根寻源,导致了第一个计算的数学模型 图灵机 的诞生,它被公认为现代数字计算机的祖先。仿生学派(连接主义方法)人的思维基元是神经元,把智能理解为相互连结的神经元竞争与协作的结果,以人工神经网络为代表。其中,反向传播网络模型(BP神经网络)和 Hopfield 网络模型 更为突出着重结构模拟,研究神经元特征、神经元网络拓扑,学习规则、网络的非线性动力学性质和自适应的协同行为。认为 人工智能源于仿生学,特别是对人脑的研究。MP 模型,开
caroline
计算机专业学生