你好赵伟

这个屌丝很懒，什么也没留下！

热门标签

LLM大模型技术实战1：大白话带你入门机器学习_白话讲大模型

作者：你好赵伟 | 2024-07-29 14:46:16

踩

白话讲大模型

一、机器学习基本概念

1、什么是机器学习

机器学习（Machine learning）是人工智能的子集，是实现人工智能的一种途径，但并不是唯一的途径。它是一门专门研究计算机怎> 引用样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的学科。

深度学习（Deep learning）是机器学习的子集，灵感来自人脑，由人工神经网络（ANN）组成，它模仿人脑中存在的相似结构。在深度学习中，学习是通过相互关联的「神经元」的一个深层的、多层的「网络」来进行的。「深度」一词通常指的是神经网络中隐藏层的数量。

传统数学 VS 机器学习

我们可以从传统数学和机器学习对比来了解机器学习

数学建模

机器学习

相同点

数据驱动: 两者都利用数据来构建和验证模型。

预测和推断: 数学建模和机器学习都可以用于预测未知的输出或解释数据中的模式。

优化问题: 在某些情况下，两者都可能涉及到优化问题，例如，寻找最小化误差的参数。

不同点

目的

**数学建模：**旨在用数学的形式来描述现实世界中的现象或问题，往往为了理解其背后的机制或原理。

**机器学习：**主要关注的是预测和泛化。机器学习模型可能不太关心背后的机制，而是关心在未知数据上的性能。

模型构建

**数学建模：**模型的形式通常基于对现象的物理、生物或经济学的理解。例如，描述人口增长的模型可能基于出生率和死亡率的估计。

**机器学习：**模型的形式主要基于数据。使用的模型可能没有明确的现实意义，例如深度学习模型。

验证

**数学建模：**模型的验证通常基于其是否与现实世界的观察相符合，以及其是否可以提供洞察力。

**机器学习：**验证通常基于模型在独立测试集上的性能。

模型的解释性

**数学建模：**模型往往更具解释性，因为它们是基于现象的某些已知原理或规律构建的。

**机器学习：**尤其是某些复杂的模型，如深度神经网络，可能难以解释。尽管如此，机器学习领域也有许多工作在努力提高模型的可解释性。

应用

**数学建模：**常应用于工程、物理学、经济学等领域，以帮助专家了解和控制系统。

**机器学习：**广泛应用于计算机视觉、自然语言处理、推荐系统等领域，主要关注自动化和预测。

模型复杂性

**数学建模：**往往倾向于使用更简单的、基于物理学或其他学科原理的模型。

**机器学习：**可能使用非常复杂的模型，特别是当数据量大且复杂度高时。

**总的来说，**数学建模和机器学习都是理解、解释和预测现象的工具，但它们的关注点、方法和应用有所不同。

2、机器学习三要素

机器学习三要素包括数据、模型、算法。这三要素之间的关系，可以用下面这幅图来表示：

（1）数据

数据驱动：数据驱动指的是我们基于客观的量化数据，通过主动数据的采集分析以支持决策。与之相对的是经验驱动，比如我们常说的「拍脑袋」。

（2）模型&算法

**模型：**在AI数据驱动的范畴内，模型指的是基于数据X做决策Y的假设函数，可以有不同的形态，计算型和规则型等。

**算法：**指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后需要考虑用什么样的计算方法求解最优模型。通常是一个最优化的问题。

3、机器学习核心技术

**分类：**应用以分类数据进行模型训练，根据模型对新样本进行精准分类与预测。

**聚类：**从海量数据中识别数据的相似性与差异性，并按照最大共同点聚合为多个类别。

**异常检测：**对数据点的分布规律进行分析，识别与正常数据及差异较大的离群点。

**回归：**根据对已知属性值数据的训练，为模型寻找最佳拟合参数，基于模型预测新样本的输出值。

4、基本概念

**示例/样本：**上面一条数据集中的一条数据。

属性/特征：「色泽」「根蒂」等。

属性空间/样本空间/输入空间X：由全部属性张成的空间。

**特征向量：**空间中每个点对应的一个坐标向量。

**标记：**关于示例结果的信息，如（（色泽=青绿，根蒂=蜷缩，敲声=浊响），好瓜），其中「好瓜」称为标记。

**分类：**若要预测的是离散值，如「好瓜」，「坏瓜」，此类学习任务称为分类。

**假设：**学得模型对应了关于数据的某种潜在规律。

**真相：**潜在规律自身。

**学习过程：**是为了找出或逼近真相。

**泛化能力：**学得模型适用于新样本的能力。一般来说，训练样本越大，越有可能通过学习来获得具有强泛化能力的模型。

**数据预处理：**输入（未处理的数据 + 标签）→处理过程（特征处理+幅度缩放、特征选择、维度约减、采样）→输出（测试集 + 训练集）。

准确率：是指有在所有的判断中有多少判断正确的，即把正的判断为正的，还有把负的判断为负的；总共有 TP + FN + FP + TN 个，所以准确率：(TP+TN) / (TP+TN+FN+FP)

召回率：是相对于样本而言的，即样本中有多少正样本被预测正确了，这样的有TP个，所有的正样本有两个去向，一个是被判为正的，另一个是错判为负的，因此总共有TP+FN个，所以，召回率 R= TP / (TP+FN)

精确率：是相对于预测结果而言的，它表示的是预测为正的样本中有多少是对的；那么预测为正的样本就有两种可能来源，一种是把正的预测为正的，这类有TruePositive个, 另外一种是把负的错判为正的，这类有FalsePositive个，因此精确率即：P=TP/(TP+FP)

二、机器学习分类

1、机器学习分类

机器学习主要分为三大类：监督学习、非监督学习、强化学习，而监督学习和非监督学习中又衍生出半监督学习。

监督学习

Supervised Learning是机器学习的一种方法，其模型是通过输入-输出(有标签的数据)对进行训练，目标是从给定的数据中学习一个映射函数,以便在给定新的输入时，模型可以预测相应的输出。训练过程涉及到输入数据和其相应的标签，并尝试找到这两者之间的关系。一旦模型被训练，它可以用来预测新、未标签数据的输出。

非监督学习

Unsupervised Learning模型被训练在没有标签的数据上。它的目的是学习数据的底层结构、分布或表示，而不是预测标签。与监督学习不同，非监督学习的目标并不是预测一个输出。相反，它试图通过某种方式学习数据的结构，这可以是通过聚类、降维或生成模型等方式来实现的。

无监督学习要解决的基本问题

A.聚类（Clustering）

聚类是将样本集合中相似的样本分配到相同的类别。聚类学习时，样本通常是欧氏空间中的向量，类别事先不确定，它们是从数据中通过学习自动发现的，但类别的个数通常是要事前给定的

B.降维（Dimensionality reduction）

降维是将样本集合中的样本从高维空间转换到低维空间。通过降维可以更好的表示样本数据间关系和样本数据的结构。在从高维空间转换到低维空间的过程中，低维空间不是事先给定的，而是从样本数据中自动发现的，但低维空间的维度数通常是事先给定的。降维有线性降维和非线性降维。

C.概率模型估计

概率模型估计简称概率估计，它假设训练数据是由某个概率模型生成的，遵循着一定的概率分布，概率模型估计的目标就是通过训练数据来学习这个概率模型的结构和参数。

强化学习

Reinforcement Learning是通过与环境交互来学习如何行动，从而最大化某种定义的长期回报。与传统的监督学习不同，强化学习通常涉及决策问题，其中每个行动都会影响未来的回报。

半监督学习

Semi-supervised Learning是介于两个极端之间(监督式是指整个数据集被标记，而非监督式是指没有标记)。半监督学习任务具有一个标记和一个未标记的数据集。它使用未标记的数据来获得对数据结构的更多理解。通常，SSL使用小的带标签数据集和较大的未带标签数据集来进行学习。)学习正如其名称所示，介于两个极端之间(监督式是指整个数据集被标记，而非监督式是指没有标记)。半监督学习任务具有一个标记和一个未标记的数据集。它使用未标记的数据来获得对数据结构的更多理解。通常，SSL使用小的带标签数据集和较大的未带标签数据集来进行学习。

为什么会用半监督学习

半监督学习位于监督学习和非监督学习之间，利用少量的标记数据和大量的未标记数据进行学习。以下是为什么要使用半监督学习的原因：

数据标注成本高：在很多应用中，收集大量数据是相对容易的，但为这些数据打标签则既昂贵又耗时。例如，在医学图像领域，一个专家可能需要花费大量时间来手动标注图像中的特定结构或病变。利用半监督学习，可以用少量的标注数据和大量的未标注数据共同训练模型。
利用数据的完整潜力：未标记的数据包含有关数据分布的有用信息。半监督学习方法尝试利用这些信息来改善模型的性能。
提高泛化能力：在某些情况下，利用大量的未标记数据可以帮助模型更好地泛化到新的、未见过的数据。
数据标注可能存在误差：在某些场景中，即使数据被标注，标签也可能存在噪音或误差。在这种情况下，使用半监督学习方法，结合大量的未标记数据，可能会提供一个更稳健的学习策略。
在某些任务中，有很多相关的未标记数据：例如，在自然语言处理中，我们可能有少量标记的数据集，但可以从网络上轻松获得大量的相关文本。半监督学习可以利用这些未标记的文本来提高模型的性能。
适应数据的变化：在动态环境中，数据分布可能随时间而变化。利用半监督学习，可以定期利用新收集的未标记数据来更新模型，使其适应变化。

总之，半监督学习提供了一种在有限标记数据的情况下利用未标记数据的方法，这对于许多实际应用来说是非常有价值的。

2、常见算法简介

监督学习算法

线性回归：对数值型连续随机变量进行预测和建模的监督学习算法（即最后输出的特征向量的标签是连续值），即找拟合函数

特点：简单、易于理解和实现，基于线性假设建立输入和输出之间的关系。
应用场景：预测房价、股票价格、温度等连续值问题。
优点：计算效率高，模型可解释性强。
缺点：假设数据符合线性关系，对于非线性问题需要转换或采用其他方法。

支持向量机 (SVM)：目标在于在空间中寻找一个超平面，使得数据集可以被超平面分开，从而完成分类任务

特点：能够处理线性和非线性问题，通过核技巧可以解决非线性分类问题。
应用场景：文本分类、图像识别、生物信息学等。
优点：在高维空间表现良好，对于边界清晰的分类问题效果优秀。
缺点：对于大规模数据集训练效率较低，参数选择和模型调优较为复杂。

无监督学习算法

K-均值（K-Means）：算法接受参数k；然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较小

特点：基于中心的聚类算法，通过迭代优化簇中心位置。
应用场景：市场细分、社交网络分析、图像分割等。
优点：算法简单，易于实现，计算效率高。
缺点：需要预先指定簇的数量，对初始簇中心敏感，可能陷入局部最优。

主成分分析 (PCA)：

特点：一种统计方法，通过正交变换将数据转换到新的坐标系统，使得最大方差位于第一个坐标（主成分）。
应用场景：数据降维、特征提取、图像压缩等。
优点：能够有效减少数据的维度，去除噪声，提取重要特征。
缺点：可能会丢失一些重要信息，对于非线性数据降维效果不佳。

深度学习算法

卷积神经网络 (CNNs)：一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的

特点：包含卷积层、池化层和全连接层，特别适合处理具有网格结构的数据，如图像。
应用场景：图像分类、物体检测、视频分析等。
优点：能够自动学习空间层次结构的特征，对于图像和视频数据效果显著。
缺点：对于序列数据的处理能力有限，需要大量标注数据进行训练。

循环神经网络 (RNNs)：

特点：具有循环结构，能够处理序列数据，捕捉时间序列中的动态时间行为。
应用场景：语言模型、机器翻译、时间序列预测等。
优点：能够处理任意长度的序列数据，捕捉长期依赖关系。
缺点：训练过程可能较慢，容易受到梯度消失或梯度爆炸的影响。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】