当前位置：首页 > news >正文

机器学习和深度学习基础

news 2026/7/5 6:43:30

机器学习与深度学习介绍

人工智能：能够感知、推理、行动和适应的程序。

机器学习：能够随着数据量的不断增加不断改进性能的算法。

深度学习：机器学习的一个子集；利用多层神经网络从大量数据中进行学习。

1、机器学习算法简介

一般是基于数学，或者统计学的方法，具有很强的可解释性。
这里简述几个经典的传统机器学习算法。
KNN, 决策树，朴素贝叶斯

1-①、KNN：k最近邻居（K-Nearesst Neighbors，简称KNN）
一种监督（#监督：是指你的数据有没有标签）学习算法，用于分类和回归问题。它的基本思想是通过测量不同数据点

零-1-②、决策树
决策树（Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

分类树（决策树）是一种十分常用的分类方法。它是一种监督学习，所谓监督学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

思考1：因为认识的人更重要

思考2：没有决策的作用，所以引入基尼系数（观察贫富差距）。

决策树不善于处理未见过的特征。

零-1-③、朴素贝叶斯
朴素贝叶斯法（Naive Bayes model）是基于贝叶斯定理与特征条件独立假设的分类方法 [1]。

最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBM）。和决策树模型相比，朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。

优点

朴素贝叶斯算法假设了数据集属性之间是相互独立的，因此算法的逻辑性十分简单，并且算法较为稳定，当数据呈现不同的特点时，朴素贝叶斯的分类性能不会有太大的差异。换句话说就是朴素贝叶斯算法的健壮性比较好，对于不同类型的数据集不会呈现出太大的差异性。当数据集属性之间的关系相对比较独立时，朴素贝叶斯分类算法会有较好的效果。

缺点

属性独立性的条件同时也是朴素贝叶斯分类器的不足之处。数据集属性的独立性在很多情况下是很难满足的，因为数据集的属性之间往往都存在着相互关联，如果在分类过程中出现这种问题，会导致分类的效果大大降低。

应用：

一、文本分类

分类是数据分析和机器学习领域的一个基本问题。文本分类已广泛应用于网络信息过滤、信息检索和信息推荐等多个方面。数据驱动分类器学习一直是近年来的热点，方法很多，比如神经网络、决策树、支持向量机、朴素贝叶斯等。相对于其他精心设计的更复杂的分类算法，朴素贝叶斯分类算法是学习效率和分类效果较好的分类器之一。直观的文本分类算法，也是最简单的贝叶斯分类器，具有很好的可解释性，朴素贝叶斯算法特点是假设所有特征的出现相互独立互不影响，每一特征同等重要。但事实上这个假设在现实世界中并不成立：首先，相邻的两个词之间的必然联系，不能独立；其次，对一篇文章来说，其中的某一些代表词就确定它的主题，不需要通读整篇文章、查看所有词。所以需要采用合适的方法进行特征选择，这样朴素贝叶斯分类器才能达到更高的分类效率。

二、其他

朴素贝叶斯算法在文字识别，图像识别方向有着较为重要的作用。可以将未知的一种文字或图像，根据其已有的分类规则来进行分类，最终达到分类的目的。

现实生活中朴素贝叶斯算法应用广泛，如文本分类，垃圾邮件的分类，信用评估，钓鱼网站检测等等。

2、深度学习

设计一个很深的网络让机器自己学习。

深度学习就是找一个函数f（x）

3、初识神经网络任务

神经网络的学习方式类似于神经突触，由多层感知机进行传递。分为输入层，隐藏层（hidden layer）与输出层。

输入层通常由三种形式的输入构成：

向量：由一组数字组成，通常可以表示不同参数
矩阵：图像通常使用像素矩阵表示，需要区分颜色通道
序列：如一句话或一组图像构成的视频，具有连续性，序列的构成之间具有逻辑关联
输出层通常为了完成下述任务：

回归任务：预测某个具体的值
分类任务：将不同对象进行区分
生成任务：生成结构化的对象 ps：1.一般结构化都是由回归/分类组成
2.多个类型的数据——多模态（图片，文字，声音）

回归任务（填空题）：根据以前的推测以后的
分类任务（选择题）：1、图片：猫/狗 2、句子：积极/消极
生成任务（结构化、简答题）：
深度学习需要数据，为什么？

因为要从数据中找到函数

如何从数据中找到函数？

先任意定义一个模型(模型)y'=wx+b，再用loss函数计算真实值y和预测值y'之间的差距，loss是w和b的函数，通过loss的值(loss越小越好)不断调整优化，最终求出一组合适的w和b

一些英文对应名词（需要掌握）
loss：损失函数，就是这些未知参数的函数，判断我们选择的这组参数怎么样。

Linaer model：线性模型

weight：权重 bias：偏差

feature：数据（x）

label：标签(y)

optimization：优化

用于规定移动的参数

那么如何根据loss的值(loss越小越好)不断调整优化呢？需要求让L(loss)最小的一组w和b，方法就是梯度下降，因为要寻找函数L的最小值，所以对w,b分别求偏导，导数大于0说明函数单增，于是就要减小w来寻找函数L的最小值，导数小于0类似而学习率η(也叫超参数)是人为设置用来调整更新w,b的幅度，η过小，模型训练会很慢，η过大，模型训练可能会效果不好，loss越来越大

通过以上的计算公式不断更新w,b，最后控制训练轮次，找到一组合适的w,b