当前位置:   article > 正文

3分钟入门数据挖掘

3分钟入门数据挖掘

数据挖掘 概述

第一章 数据挖掘介绍

  1. 哪些算法是有监督学习,无监督学习,各自特点?

    答案:有监督分为分类和回归两类,无监督学习主要为聚类和降维

    算法名称算法类型特点
    决策树Decision Tree有监督既可作分类也可做回归决策树的结果容易理解和解释,因为它们模仿了人类的决策过程,使用类似于流程图的树状结构
    逻辑回归Logistic Regression线性有监督分类逻辑回归是一种简单且计算高效的分类算法,主要用于二分类问题,输出结果可解释性强,表现为概率形式。它基于线性组合的特征通过Sigmoid函数映射到0到1之间,适合处理线性可分数据,但在处理非线性关系时效果不佳。
    支持向量机(SVM有监督最大化间隔:SVM寻找分类边界(超平面)以最大化不同类别之间的距离。 非线性映射:通过核技巧处理非线性可分数据,映射到高维空间进行分类。
    K-meansK近邻算法聚类无监督是一种迭代的聚类算法,通过最小化簇内成员与簇中心的距离平方和来形成k个簇,适用于球形、大小相似的簇需预先指定簇的数量k
    DBSCAN聚类无监督基于密度的聚类算法,自动发现任意形状的簇,通过测量点的密度来确定核心点和边界点,能识别并排除噪声点,无需预设簇的数量
    PCA主成分分析降维通过线性变换将高维数据投影到低维空间,同时保留数据的大部分方差,生成的主成分彼此正交,减少计算复杂度和冗余。
    。。。
  2. “过拟合”是什么意思?

    答案:过拟合指模型在训练数据上表现优异,但在新数据上性能下降的现象,因模型学习了训练数据的噪声而非普遍规律。

  3. 正则化是什么意思?目的是什么?

    答案:正则化是在数据挖掘中通过在损失函数中添加惩罚项来防止模型过拟合的技术,旨在提升模型的泛化能力,确保模型在未见数据上的表现。它通过限制模型的复杂度来达成这一目标,常见的方法有L1和L2正则化。 举个例子:想象你在教一个小孩子识别苹果和橙子。开始时,你只给他看非常典型的苹果和橙子——红红圆圆的苹果,橙色光滑的橙子。小孩很快就学会了区分它们。但是,如果每次你给他的苹果都是红色的,他可能会认为所有红色的东西都是苹果。这就是过拟合——模型(小孩)对训练数据(你给他的苹果和橙子)过度适应,以至于无法正确处理新情况(比如黄色的苹果或橙色的胡萝卜)。

    正则化就像是告诉小孩:“不要只是记住这些苹果的样子,要学习它们更本质的特征。”这样,即使遇到不同颜色或形状的苹果,小孩也能识别出来。同样,正则化使模型关注数据的普遍规律,而不仅仅是记忆训练数据的细节,从而提高其对新数据的适应能力。

第二章 回归分析

  1. 哪些算法属于回归,各自的特点已经应用场景

    **答案:**回归算法主要用于预测连续数值型的目标变量,以下是一些常见的回归算法及其特点和应用场景:

    1. 线性回归(Linear Regression)
      • 特点:假设自变量和目标变量间存在线性关系,通过最小化预测值与真实值间的平方误差来拟合最佳直线。y=kx+b
      • 应用场景:预测房价、销售量预测、经济增长预测等。
    2. 岭回归(Ridge Regression)
      • 特点:线性回归的变种,引入了L2正则化,有助于解决多重共线性和过拟合问题。
      • 应用场景:基因表达数据中的基因选择,具有大量特征的数据集。
    3. Lasso回归(Least Absolute Shrinkage and Selection Operator)
      • 特点:线性回归的另一种变种,引入了L1正则化,可以将一些不重要的特征的权重压缩至零,实现特征选择。
      • 应用场景:特征选择,特别是在特征数量远大于样本数量的情况下。
    4. 弹性网络回归(Elastic Net Regression)
      • 特点:结合了L1和L2正则化,既能处理多重共线性,又能进行特征选择。
      • 应用场景:高维数据的回归分析,例如基因组学研究。
    5. 决策树回归(Decision Tree Regression)
      • 特点:使用树结构进行预测,通过分割数据空间来逼近目标变量。
      • 应用场景:预测电力消耗、医疗费用预测。
    6. 随机森林回归(Random Forest Regression)
      • 特点:集合多个决策树的预测,减少过拟合,提高预测稳定性。
      • 应用场景:金融风险评估、天气预报。
    7. 梯度提升回归树(Gradient Boosting Regression Trees, GBRT)
      • 特点:通过逐步添加弱预测模型(通常是决策树)来改进预测,减少偏差。
      • 应用场景:预测股票市场波动、用户行为预测。
    8. 支持向量回归(Support Vector Regression, SVR)
      • 特点:基于支持向量机原理,寻找一个最优的边界来最大化数据点与边界之间的距离。
      • 应用场景:时间序列预测、化学物质属性预测。
  2. 回归问题的应用场景,作用以及评价指标(R^2、回归误差)
    • 决定系数(Coefficient of Determination, R²)

      • 定义:模型预测值与真实值相关性的度量,表示模型解释了数据中多少变异。

      • 解释:R² 取值范围在 -∞ 到 1 之间,越接近 1 表示模型拟合得越好。

      • 公式:
        R 2 = 1 − ∑ i = 1 n ( y i − y ^ i ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 R^2 = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2} R2=1i=1n(yiyˉ)2i=1n(yiy^i)2

    • 调整后的决定系数(Adjusted R²)

      • 定义:R² 的修正版本,考虑了模型自由度的影响。

      • 解释:调整后的 R² 通常用于有多重自变量的模型,以惩罚过多的自变量。

      • 公式:
        A d j u s t e d   R 2 = 1 − ( 1 − R 2 ) n − 1 n − p − 1 Adjusted\ R^2 = 1 - (1-R^2)\frac{n-1}{n-p-1} Adjusted R2=1(1R2)np1n1

  3. 回归算法的完整代码
    # 导入所需的库
    from sklearn.model_selection import train_test_split
    from sklearn.linear_model import LinearRegression
    from sklearn import metrics
    import pandas as pd
    
    # 加载数据集
    data = pd.read_csv('data.csv') # 请替换为你的数据集路径
    
    # 定义特征和目标变量
    X = data[['feature1', 'feature2', 'feature3']] # 请替换为你的特征列名
    y = data['target'] # 请替换为你的目标列名
    
    # 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
    
    # 创建线性回归模型
    linear_regression = LinearRegression()
    
    # 训练模型
    linear_regression.fit(X_train, y_train)
    
    # 预测测试集结果
    y_pred = linear_regression.predict(X_test)
    
    # 计算均方误差
    mse = metrics.mean_squared_error(y_test, y_pred)
    print('Mean Squared Error: {:.2f}'.format(mse))
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28

第三章 分类算法(

  1. 哪些算法属于分类,各自的特点和应用场景

    答:

    分类算法在机器学习和数据挖掘中用于预测数据点属于哪一类别。以下是一些常见的分类算法及其特点和应用场景:
    
    1. 逻辑回归(Logistic Regression)
       - 特点:尽管名字中有“回归”,但实际上它是一种分类算法,特别适用于二分类问题。使用sigmoid函数将线性组合的输出转换为概率。
       - 应用场景:信用评分、疾病诊断、客户流失预测等。
    2. 决策树(Decision Trees)
       - 特点:通过递归地将数据集拆分成子集,形成树状结构。易于理解和可视化,能够处理数值和分类特征。
       - 应用场景:客户细分、医疗诊断、故障检测。
    3. 随机森林(Random Forest)
       - 特点:由多个决策树组成,通过投票机制进行分类,减少了过拟合风险,提高了预测的稳定性。
       - 应用场景:生物信息学、金融风险评估、图像识别。
    4. 支持向量机(Support Vector Machine, SVM)
       - 特点:寻找一个超平面,使得两类数据的间隔最大化。对于高维空间中的分类问题特别有效。
       - 应用场景:手写数字识别、文本分类、生物信息学。
    5. K近邻算法(K-Nearest Neighbors, KNN)
       - 特点:基于实例的学习,根据新样本最近的K个邻居的类别来预测其类别。
       - 应用场景:推荐系统、图像识别、异常检测。
    6. 朴素贝叶斯(Naive Bayes)
       - 特点:基于贝叶斯定理,假设特征之间相互独立,适用于大规模数据集和实时预测。
       - 应用场景:文本分类、情感分析、垃圾邮件过滤。
    7. 神经网络(Neural Networks)
       - 特点:模仿人脑神经元结构,通过多层节点学习复杂的模式。能够处理非常复杂的非线性关系。
       - 应用场景:语音识别、图像识别、自然语言处理。
    8. 集成学习算法(Ensemble Methods)
       - 特点:结合多个模型的预测结果,如AdaBoost、Gradient Boosting、XGBoost,通过提升或袋装技术增强预测性能。
       - 应用场景:几乎所有的分类问题,特别适用于提高模型的准确性和稳定性。
    9. 深度学习(Deep Learning)
       - 特点:是神经网络的高级形式,使用多层非线性处理单元进行特征提取和变换,特别擅长处理高维数据。
       - 应用场景:自动驾驶、医疗影像分析、游戏AI
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
  2. 分类算法的评价指标
    1. 准确率(Accuracy)
       - 定义:分类正确的样本数占总样本数的比例。
       - 计算公式:
       Accuracy= (TP+TN/TP+FP+FN+TN)
       - 适用场景:当类别分布均匀时较为适用。
    2. 精确率(Precision)
       - 定义:预测为正类的样本中实际为正类的比例。
       - 计算公式:Precision= (TP)/(TP+FP)   
    3. 召回率(Recall)
       - 定义:实际为正类的样本中被正确预测为正类的比例。
       - 计算公式:
    4. F1-Score
       - 定义:精确率和召回率的调和平均值,平衡两者。
       - 计算公式:
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/天景科技苑/article/detail/995959
推荐阅读