当前位置:   article > 正文

2024年Python最新8个应用案例告诉你,机器学习都能做什么?_机器学习案例_机器学习 python能写什么项目

机器学习 python能写什么项目

图1-8显示了从2006年到2014年美国公民持有的学生贷款债务总额,每个季度评估一次。学生借钱是为了支付大学学费和食宿费等。

▲图1-8 从2006年到2014年美国学生贷款债务总额,每个季度评估一次。拟合数据趋势线的斜率表示了学生债务的迅速增长,证实了学生债务正在(危险地)急剧增长的说法

从图中可以看出,在这8年间,学生债务总额增长了两倍,到2014年年底总额已经超过了1万亿美元。拟合该数据集的回归线很好地表示了数据集,其陡峭的正斜率强调了学生债务正在急剧上升的危险。此外,如果这种趋势继续下去,那么我们可以利用回归线预测,到2026年年底,学生债务总额将达到2万亿美元。

例2 收入预测

1983年,奥斯卡最佳编剧William Goldman在他的书《Adventures in the Screen Trade》中指出“无人知晓任何事情”,意思是说,他认为在当时无法预测好莱坞电影能否成功。然而,在后互联网时代的今天,准确估计即将上映电影的票房收入正在成为可能。

特别是,预告片的网络搜索量以及Twitter、Facebook等社交网络上关于电影的讨论数量,**已被证明提前一个月就能可靠地预测出电影的首映周末票房收入。**一些产品或者服务的销量预测,包括票房预测,一般用回归来实现。其中,输入特征可以是某天内的预告片搜索量,输出是相应时段内的收入。基于这些数据学习的回归模型可用于估计新电影的预期收入。

例3 基因与数量性状的关联

全基因组关联(GWA)研究(如图1-9所示)旨在理解数以万计的基因标记之间的关系,这些基因标记来自于众多领域的人类基因组,包含高血压/胆固醇、心脏病、糖尿病、各种癌症以及其他疾病。

这些研究是希望有朝一日能产生基因靶向疗法,像治疗由单一基因引起的疾病(如囊性纤维化)那样,帮助人们治愈由多种因素导致的疾病。在GWA研究中,回归作为一种常用的工具,用来理解基因标记(特征)与胆固醇或葡萄糖水平(连续的输出变量)等数量性状之间的复杂关系。

▲图1-9 一个使用回归的GWA研究的概念图,其中一个数量性状与特定的基因组位置有关

02 分类

分类的机器学习任务在原理上与回归类似。二者的主要区别是,分类的主要任务是预测离散的值或者类别,而不是预测连续值输出(如股票价格和血压等)。分类问题可以以不同的形式出现。例如,目标识别就是一个非常流行的分类问题,它将一组图像中的目标区分开来(如自动分类邮件上的手写数字,或者半自动驾驶和自动驾驶过程中的路牌区分)。

在《怎样教一台计算机区分猫和狗?一文零基础入坑机器学习》一文中讨论的区分猫和狗的微型问题也是这样的分类问题。其他常见的分类问题还包括语音识别(语音识别系统识别不同的口语单词),确定Twitter等社交网络上对某个产品或服务的普遍感受,以及在一个有限的可能集合中确定一个人正在做的手势(如控制一台没有鼠标的计算机)。

从几何学上讲,看待分类任务的一种常见方法是找到一个分离线(或更高维度的超平面),将这两类数据尽可能地从训练集中分离出来。

注:有些分类问题,如手写数字识别,会涉及两个以上的类别,需要比一条直线更好的模型来分隔这些类。

这正是我们在描述《怎样教一台计算机区分猫和狗?一文零基础入坑机器学习》的微型示例时所采用的分类观点,采用一条直线来分隔(从图像中提取的特征)猫和狗的图片。对于测试集中的新数据,只需要简单地确定它们位于直线或者超平面的哪一侧就可以对其进行自动分类。图1-10展示了用于在二维微型数据上进行分类的线性模型或分类器的概念。

▲图1-10 (左上图)包含两个不同的类的微型二维训练集;(右上图)一个已经训练好的用来区分这两个类的线性模型;(左下图)一个未知类的测试点;(右下图)测试点被分到相应的类中,因为这个点位于已训练好的线性分类器的右侧

例4 目标检测

目标检测是一种常见的分类问题,它是在一组图像或视频中自动识别特定对象的任务。常见的目标检测应用包括用于组织目的和照相机聚焦的人脸图像检测,用于自动驾驶车辆的行人检测,以及用于电子产品质量控制自动化的残次品检测。除了我们要重点讨论的人脸检测外,相同的机器学习框架可用来解决许多类似的检测问题。

注:尽管行人检测是一个经过深入研究的分类问题,但一个标准的半自动或自动汽车会使用多个探测器来发现汽车周围的其他重要物体,如道路标识、交通信号和其他汽车。

在包含人脸和其他图像的训练集上训练好线性分类器后,对于新的测试图像,可通过在整个图像上滑动一个(通常是)正方形的窗口来寻找人脸。在滑动窗口的每个位置,对内部的图像内容进行测试,查看它位于分类器的哪一侧(如图1-11所示)。如果图像内容(的特征表示)位于学习分类器“人脸这一侧”,那么它就被分类为人脸。

注:在实际应用中,为了确保在测试图像中检测到与照相机具有不同距离的所有人脸,通常会采用不同大小的窗口来扫描图像。如果多个检测都是围绕单个人脸进行的,那么它们就会被组合成一个高亮显示的窗口,将检测到的人脸包围起来。

▲图1-11 为了确定测试图片中是否存在人脸(该示例图片中,飞机的发明者莱特兄弟并排坐在他们于1908年发明的第一个机动飞行器上),一个小窗口扫描了图片的全部区域。在每个位置上,通过检查特征表示位于分类器的哪一侧来确定小框中的内容是否为人脸。作为示例,右图中的直线上方和下方区域分别表示学习分类器的人脸一侧和非人脸一侧

例5 情感分析

社交媒体的兴起极大地放大了消费者的声音,为他们提供了一系列良好的渠道来评论、讨论、评估产品和服务。这促使很多公司寻找数据密集型方法来评估消费者对新发布的产品、广告活动等的感受。

**通过使用基于文本的内容(如产品评价、推文和评论)来确定大量客户群的总体感受,通常称为情感分析。**分类模型通常用于情感分析,学习辨别消费者的正面或负面情绪数据。

例6 作为医学诊断工具的分类

各种各样的癌症仍然是诊断和治疗中最具挑战性的疾病。

今天,人们相信许多癌症的罪魁祸首在于突变基因的积累,或者换句话说,是个人DNA序列的错误复制。利用DNA微阵列技术,遗传学家现在可以同时从健康和肿瘤组织中查询成千上万个基因的表达水平。这些数据可以用于自动识别癌症遗传易感性患者的分类框架。该问题和例3所讨论的基因与数量生物性状的关联性有关。

在医学界,利用人脑功能性核磁共振成像(fMRI),分类也越来越多地用于诊断神经系统疾病,如自闭症和注意缺陷多动障碍(ADHD)等。这些fMRI脑部扫描可以在病人执行简单的认知活动(如追踪一个小的视觉对象)时,随着时间的推移,捕获大脑不同区域的神经活动模式。

这里的最终目标是训练一种诊断分类工具,仅基于fMRI扫描就能区分具有特定神经系统疾病的患者和没有此疾病的患者。

03 特征设计

正如我们在前面章节中所描述的,特征是定义给定数据集的特性,从而允许最优的学习。事实上,精心设计的特征对回归和分类方案的性能都是至关重要的。

然而,从广义上说,我们所能设计特征的好坏,从根本上取决于我们对所研究现象的知识水平。我们越了解(在智力和直觉上)手头数据的生成过程,设计的特征就越好,或者在理想情况下,教会计算机自己完成这项设计工作。在极端情况下,我们几乎完全理解数据的生成过程,这些知识来自于大量直观的、实验性的以及数学上的思考,我们设计的特征也会有近乎完美的性能。

然而,通常情况下,我们对正在分析的数据只了解一点,甚至一点也不了解。宇宙巨大而复杂,关于它如何运行的确切理解,我们知道的还只是凤毛麟角。

下面我们举一些例子,说明我们对现象的**理解程度(从对现象的十分了解到只了解一些基本事实)是如何指导特征设计的。**本节的一个主旨是详细阐述机器学习技术处理这个问题的现状。

机器学习的一个最终目标是开发有效的工具来处理任意类型的数据(发现其中的模式)。该目标现在还远未得到充分实现,从根本上来说,它要解决的问题与寻找好的特征有关。

例7 伽利略和匀加速

1638年,伽利略因被天主教会驱逐而臭名昭著。他被驱逐的原因是,在他最后出版的书《Dialogues Concerning Two New Sciences》中,他大胆宣称地球是绕太阳转的,而不是太阳绕地球转(当时的主流观点)。在这本书中,他以亚里士多德传统的三人对话形式,为匀加速物理运动的概念描述了他的实验和哲学证据。

具体而言,伽利略(和其他人)直觉上认为,由于(我们现在所知道的)重力,物体的加速度在时间上是一致的。换言之,物体下落的距离与它运动时间的平方成正比(即线性相关)。该关系是伽利略用以下巧妙而简单的实验经验性地得到的。

最后

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/空白诗007/article/detail/815480
推荐阅读
相关标签