赞
踩
导读:预测学习是当今机器学习的主要任务。本文中,我们将介绍两个主要的预测学习问题:回归和分类。它们适用于很多场景和数据类型。此外,精心设计的特征对回归和分类方案的性能都是至关重要的。
本文通过8个案例介绍机器学习的应用场景。
作者:杰瑞米·瓦特,雷萨·博哈尼,阿格洛斯·K.卡萨格罗斯
如需转载请联系大数据(ID:hzdashuju)
01 回归
假设我们想预测一家即将上市的公司的股价(即当一家公司首次向公众发行股票时)。根据《怎样教一台计算机区分猫和狗?一文零基础入坑机器学习》一文中所讨论的流程,首先,要收集数据的训练集,训练集应包含一些已知股票价格的公司(最好是活跃在相同领域的公司)。然后,需要设计与当前任务相关的特征。
公司的收入就是这样一个潜在特征,因为我们预计公司的收入越高,股票的价格也应该越高。(其他的潜在特征可能包括总资产、总股本、员工数和年活跃度等。)现在,为了将股票价格和收入联系起来,我们用训练数据来训练一个线性模型或回归线。
图1-7上图表示由10家公司的股价和收入信息组成的微型训练集以及一个拟合该数据集的线性模型。一旦模型训练完成,新公司的股价可以根据其收入来预测,如图1-7下图所示。
▲图1-7 (左上图)由10家公司的股价和收入组成的微型训练数据集;(右上图)一个拟合该数据的线性模型;如左下图和右下图所示,这条趋势线可以建模这些点的整体轨迹,并且可以在将来用于预测
最后,将预测的价格与测试集中真实的价格进行比较,测试回归模型的性能,并根据需要进行调整(如选择不同的特征)。用模型拟合一组训练数据以便对一个连续变量(如股票价格)进行预测,这类任务被称为回归。我们现在来讨论有关回归的更多例子。
例1 美国学生贷款债务的增长
图1-8显示了从2006年到2014年美国公民持有的学生贷款债务总额,每个季度评估一次。学生借钱是为了支付大学学费和食宿费等。
▲图1-8 从2006年到2014年美国学生贷款债务总额,每个季度评估一次。拟合数据趋势线的斜率表示了学生债务的迅速增长,证实了学生债务正在(危险地)急剧增长的说法
从图中可以看出,在这8年间,学生债务总额增长了两倍,到2014年年底总额已经超过了1万亿美元。拟合该数据集的回归线很好地表示了数据集,其陡峭的正斜率强调了学生债务正在急剧上升的危险。此外,如果这种趋势继续下去,那么我们可以利用回归线预测,到2026年年底,学生债务总额将达到2万亿美元。
例2 收入预测
1983年,奥斯卡最佳编剧William Goldman在他的书《Adventures in the Screen Trade》中指出“无人知晓任何事情”,意思是说,他认为在当时无法预测好莱坞电影能否成功。然而,在后互联网时代的今天,准确估计即将上映电影的票房收入正在成为可能。
特别是,预告片的网络搜索量以及Twitter、Facebook等社交网络上关于电影的讨论数量,已被证明提前一个月就能可靠地预测出电影的首映周末票房收入。一些产品或者服务的销量预测,包括票房预测,一般用回归来实现。其中,输入特征可以是某天内的预告片搜索量,输出是相应时段内的收入。基于这些数据学习的回归模型可用于估计新电影的预期收入。
例3 基因与数量性状的关联
全基因组关联(GWA)研究(如图1-9所示)旨在理解数以万计的基因标记之间的关系,这些基因标记来自于众多领域的人类基因组,包含高血压/胆固醇、心脏病、糖尿病、各种癌症以及其他疾病。
这些研究是希望有朝一日能产生基因靶向疗法,像治疗由单一基因引起的疾病&#x
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。