当前位置:   article > 正文

Python众筹项目结果预测:优化后的随机森林分类器可视化|数据代码分享

Python众筹项目结果预测:优化后的随机森林分类器可视化|数据代码分享


全文链接:https://tecdat.cn/?p=35412

分析师:YiChen Xia

随着信息技术的飞速发展,众筹作为一个互联网金融的子领域已经成为个人和小企业主筹集资金支持梦想的创新渠道点击文末“阅读原文”获取完整代码数据)。

相关视频

无论对于众筹发起者还是众筹平台而言,如何利用历史数据去准确预测一个众筹项目的成功与否乃至最终筹款额度都是非常值得探讨研究的问题。

解决方案

任务/目标

根据历史数据,帮助客户分析众筹项目成功规律,预测每个项目的筹款额度。

数据源准备

从Kickstarter平台上爬取了众筹项目数据查看文末了解数据免费获取方式,其中包含了众筹项目名称、链接、描述、支持者数量和许多其他特征。随后进行了数据清洗。主要处理了各种爬虫过程中产生的缺失值。

d2a4f1b7d4589f09b576c5f3eaa76996.png

  1. print(df_2018.shape)
  2. print(df_2016.shape)

fce4d3236a1b1e6145f0fd980ce4e2bd.png

特征转换

项目名称字段二分为离散型变量(已知/未知);项目描述抽象成项目描述字数。额外加入可计算属性平均每参与者贡献额。

  1. df.country = df.country.'N,0"', value='NO')
  2. ummies(df.drop(labels=['name', 'launched', 'deadlin
  3. df_encoded['avbacking'] = (df_encoded['usd_pledgal']/(df_encoded['backers']+1))

构造

划分训练集和测试集

考虑到筹款项目与时间关系不大,使用最普遍的不放回抽样方法划分训练集与测试集,比例为4:1。

数据分析

我想从了解Kickstarter项目的基础数据开始,这包括项目发起地、主要类别、持续时间、目标等内容。

percent_plot((df.countcounts()/df.s

831fb2abb00ef046dd636b7a4168f25d.png

48821f7ee445bd81eb98a20776bd6f14.png

cf5606ee2551e545939956358b2d8fb0.png

780ddd065ed4f855d18bb708a6bccd44.png

e14a49b5348b0512c467d0f176f654a6.png


点击标题查阅往期内容

d86fcc99c64b171395f80a4d5ba6cc2a.jpeg

R语言逻辑回归、决策树、随机森林、神经网络预测患者心脏病数据混淆矩阵可视化

outside_default.png

左右滑动查看更多

outside_default.png

01

d772e126309d4c408429f6285fc3db90.png

02

0bb3ec5e081b103a350f2e7596070af9.png

03

1a427a2368fd0af946c48c2019f6f0ea.png

04

81f6b791bbf8156d9f8d05c185d46556.png

描述性统计

从描述性统计中我们能学到什么?成功与什么有关?我们必须记住,相关性并不等于因果关系。

cd541e1ffdb0828a409a714fb0571e8b.png

机器学习分类模型

我们来看看是否能够准确地预测哪些项目会成功,哪些项目不会成功。我们将使用随机森林分类器,因为这种集成学习方法通常相当强大,并且不是基于距离的(所以我们不需要进一步标准化特征,如项目持续时间、实际筹集资金或实际目标金额)。

R_moel(42, X_train, X_test, y_train, y_test)

f38e3c0b38744c9aadbbe5a878c2d839.png

0f8213e75bbb577e270d33aaa91de53d.png

print_iprtant_fe='columns'))
  1. usd_gol_real
  2. duration
  3. main_category_Music

结论

根据随机森林集成学习器的特征重要性,最重要的特征包括实际目标金额(usd_goal_real)、项目持续时间(duration)、主要类别中的漫画(main_category_Comics)、时尚(main_category_Fashion)、音乐(main_category_Music)和戏剧(main_category_Theater)。这表明我们设定的货币目标以及我们允许人们为项目筹款的时间长度确实非常重要。艺术和表演类别的项目更有可能成功,这一结论得到了描述性统计分析的佐证。

许多因素都对此有贡献,而这些因素无法完全通过数据来解释。例如,商业理念、规划、激励人们进行筹款的措施或项目设计都很难量化。也许如果我们拥有每个项目评论中的情感数据,我们就可以将其整合到一个更大、更好的分类模型中,以预测我们的成功几率。

关于分析师

在此对YiChen Xia对本文所作的贡献表示诚挚感谢,他专注数据处理领域。擅长R语言、Python。

dcef5894b23d977ce3d1b42d7cef8682.jpeg

数据获取

在公众号后台回复“众筹”,可免费获取完整数据。

本文中分析的数据和代码分享到会员群,扫描下面二维码即可加群!

7718a0ebd371af4d3655d65d23407214.png


0f153f2de88d244edc43930084eefcfe.jpeg

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《Python众筹项目结果预测:优化后的随机森林分类器可视化》。

6ff789895e40b1ca587cc01a56362c34.jpeg

549fc94f6038070340d6baa3a5afb137.png

点击标题查阅往期内容

数据分享|R语言逻辑回归、线性判别分析LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM分类葡萄酒交叉验证ROC

MATLAB随机森林优化贝叶斯预测分析汽车燃油经济性

R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数

R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据

R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归

Python贝叶斯回归分析住房负担能力数据集

R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

Python用PyMC3实现贝叶斯线性回归模型

R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型

R语言Gibbs抽样的贝叶斯简单线性回归仿真分析

R语言和STAN,JAGS:用RSTAN,RJAG建立贝叶斯多元线性回归预测选举数据

R语言基于copula的贝叶斯分层混合模型的诊断准确性研究

R语言贝叶斯线性回归和多元线性回归构建工资预测模型

R语言贝叶斯推断与MCMC:实现Metropolis-Hastings 采样算法示例

R语言stan进行基于贝叶斯推断的回归模型

R语言中RStan贝叶斯层次模型分析示例

R语言使用Metropolis-Hastings采样算法自适应贝叶斯估计与可视化

R语言随机搜索变量选择SSVS估计贝叶斯向量自回归(BVAR)模型

WinBUGS对多元随机波动率模型:贝叶斯估计与模型比较

R语言实现MCMC中的Metropolis–Hastings算法与吉布斯采样

R语言贝叶斯推断与MCMC:实现Metropolis-Hastings 采样算法示例

R语言使用Metropolis-Hastings采样算法自适应贝叶斯估计与可视化

视频:R语言中的Stan概率编程MCMC采样的贝叶斯模型

R语言MCMC:Metropolis-Hastings采样用于回归的贝叶斯估计

R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

9b38457f64fc66605815b90da0624ee4.png

ea71d7fa3b1ec873eacf256b3fb0ea50.jpeg

f2745956324d346181706e9a9b9880ab.png

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/299543
推荐阅读
相关标签
  

闽ICP备14008679号