当前位置:   article > 正文

机器学习实验三:顾客购买服装的分析与预测_决策树回归双十一预测

决策树回归双十一预测

实验要求

        采用决策树算法,对“双十一”期间顾客是否买服装的数据集进行分析与预测。顾客购买服装数据集:包含 review(商品评价变量)、discount(打折程度)、needed(是否必需)、shipping(是否包邮)、buy(是否购买)。
【实验要求】
1.读取顾客购买服装的数据集(数据集路径:data/data76088/3_buy.csv),探索
数据。
2.分别用 ID3 算法和 CART 算法进行决策树模型的配置、模型的训练、模型的预测、
模型的评估。
3.扩展内容(选做):对不同算法生成的决策树结构图进行可视化。

实验过程

1.对该题目的理解

        本项目是分别用ID3算法和CART算法进行决策树模型的配置训练,然后对“双十一”期间顾客是否买服装的数据集进行分析与预测。其中顾客购买服装数据集包含:review(商品评价变量)、discount(打折程度)、needed(是否必需)、shipping(是否包邮)、buy(是否购买)。

2.实现过程

(1)导入包。

代码如下:

  1. import pandas as pd
  2. import numpy as np
  3. from sklearn import tree
  4. from sklearn import metrics
  5. from sklearn.model_selection import train_test_split

(2)读取顾客购买服装的数据集(数据集路径:data/data76088/3_buy.csv),探索数据

代码如下:

  1. data = pd.read_csv("data/data76088/3_buy.csv")
  2. print("data:",data)

(3)划分数据集,测试集。

代码如下:

  1. x, y = np.split(data, indices_or_sections=(4,), axis=1)
  2. x_train, x_test, y_train, y_test = train_test_split(
  3. x, y, test_size=0.30)
  4. print("x_train.shape:", x_train.shape)
  5. print("y_train.shape:", y_train.shape)
  6. print("x_test.shape:", x_test.shape)
  7. print("y_test.shape:", y_test.shape)

(4)分别用ID3算法和CART算法进行决策树模型的配置、模型的训练、模型的预测、模型的评估。

代码如下:

  1. clf_CART = tree.DecisionTreeClassifier(
  2. criterion='gini', max_depth=4) # CART基尼系数
  3. clf_ID3 = tree.DecisionTreeClassifier(
  4. criterion='entropy', max_depth=4) # ID3信息熵
  5. # ### 训练模型
  6. clf_CART.fit(x_train, y_train) # 模型训练
  7. clf_ID3.fit(x_train, y_train) # 模型训练
  8. # ### 模型预测
  9. predictions_CART = clf_CART.predict(x_test) # 模型测试
  10. print("predictions_CART", predictions_CART)
  11. predictions_ID3 = clf_ID3.predict(x_test) # 模型测试
  12. print("predictions_ID3", predictions_ID3)
  13. # ### 模型评估
  14. print('CART的准确率: %s' % accuracy_score(y_test, predictions_CART))
  15. print('ID3的准确率: %s' % accuracy_score(y_test, predictions_ID3))

3.遇到的问题及解决办法

(1)问题:ID3算法和CART算法分别有什么特点

ID3 算法计算的是信息增益,信息增益指的就是划分可以带来纯度的提高,信息熵的下降。它可以生成二叉树或多叉树。而 CART 只支持二叉树。同时 CART 决策树比较特殊,既可以作分类树,又可以作回归树。

实验结果

1.读取顾客购买服装的数据集(数据集路径:data/data76088/3_buy.csv),探索数据

 2.划分数据集,测试集

 

 3.分别用ID3算法和CART算法进行决策树模型的配置、模型的训练、模型的预测、模型的评估

 

实验总结

1.通过此实验了解了决策树的典型算法有ID3和CART,了解了ID3和CART模型的配置,模型训练,预测和评估的方法,明白了其区别和各自的特点。

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/329378
推荐阅读
相关标签
  

闽ICP备14008679号