当前位置:   article > 正文

ML:机器学习基础_ml 机器学习 软件

ml 机器学习 软件

何谓机器学习

机器学习软件的作用为改善商业决策、提高生产率、检测疾病、预测天气。此外,它还可以作为实际工具应用于从政治到地质学的多个领域,解决其中的很多问题。甚至可以这么说,机器学习对于任何需要解释并操作数据的领域都有所裨益。

机器学习横跨计算机科学、工程技术和统计学等多个学科,需要多学科的专业知识。

除却一些无关紧要的情况,人们很难直接从原始数据本身获得所需信息。例如,对于垃圾邮件的检测,侦测一个单词是否存在并没有太大的作用,然而当某几个特定单词同时出现时,在辅以考察邮件长度及其他因素,人们就可以更准确地判断该邮件是否为垃圾邮件。

简而言之,机器学习就是把无序的数据转换成有用的信息

机器学习的主要任务

机器学习的主要任务就是分类,即将实例数据划分到合适的分类中。

机器学习的另一项任务是回归,它主要用于预测数值型数据。

分类回归属于监督学习,之所以称之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。

与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;将寻找描述数据统计值的过程称之为密度估计。此外,无监督学习还可以减少数据特征的维度,以便可以使用二维或三维图形更加直观地展示数据信息。

如何选择合适的机器学习算法

选择合适的机器学习算法以应用,必须考虑两个问题:一、使用机器学习算法的目的,想要算法完成何种任务二、需要分析或收集的数据是什么

首先考虑使用机器学习算法的目的。如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监督学习算法。确定选择监督学习算法之后,需要进一步确定目标变量类型,如果目标变量是离散型,如是/否1/2/3A/B/C或者红/黄/黑等,则可以选择分类算法;如果目标变量是连续型的数值,如0.0~100.00、-999~999或者 + ∞ ∼ − ∞ +\infty \sim -\infty +等,则需要选择回归算法

如果不想预测目标变量的值,则可以选择无监督学习算法。进一步分析是否需要将数据划分为离散的组。如果这是唯一的需求,则使用聚类算法。如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法

其次,需要考虑的是数据问题。对实际数据了解得越充分,越容易创建符合实际需求的应用程序。为了对数据进行充分的了解,应该了解数据的以下特性:(1)特征值是离散型变量还是连续型变量,(2)特征值中是否存在缺失的值,何种原因造成缺失值,(3)数据中是否存在异常值,(4)某个特征发生的频率如何(是否罕见得如同海底捞针),等等。充分了解上面提到的这些数据特性可以缩短选择机器学习算法的时间。

开发机器学习应用程序的步骤

学习和使用机器学习算法开发应用程序,通常遵循以下的步骤。

(1)收集数据。收集样本数据的方法有很多,如:1)制作网络爬虫从网站上抽取数据,2)从RSS反馈或者API中得到信息,3)设备发送过来的实测数据(风速、血糖等)。提取数据的方法非常多,为了节省时间与精力,可以使用公开可用的数据源

(2)准备输入数据。得到数据之后,还必须确保数据格式符合要求。此外,还需要为机器学习算法准备特定的数据格式,如某些算法要求特征值使用特定的格式,一些算法要求目标变量特征值字符串类型,而另一些算法则可能要求是整数类型

(3)分析输入数据。此步骤主要是人工分析以前得到的数据。为了确保前两步有效,最简单的方法是用文本编辑器打开数据文件,查看得到的数据是否为空值。此外,还可以进一步浏览数据,分析是否可以识别出模式;数据中是否存在明显的异常值,如某些数据点与数据集中的其他值存在明显的差异。通过一维、二维或三维图形展示数据也是不错的方法,然而大多数时候,得到数据的特征值都不会低于三个,无法一次图形化展示所有特征。但这种情况可以通过采用一些提炼数据的方法,使得多维数据可以压缩到二维或三维,以方便图形化展示数据。

(4)训练算法。机器学习算法从这一步才真正开始学习。根据算法的不同,第4步和第5步是机器学习算法的核心。将前两步得到的格式化数据输入到算法,从中抽取知识或信息。这里得到的知识需要存储为计算机可以处理的格式,方便后续步骤使用。如果使用无监督学习算法,由于不存在目标变量值,故而也不需要训练算法,所有与算法相关的内容都集中在第5步。

(5)测试算法。这一步将实际使用第4步机器学习得到的知识信息。为了评估算法,必须测试算法工作的效果。对于监督学习,必须已知用于评估算法的目标变量值;对于无监督学习,也必须用其他的评测手段来检验算法的成功率。无论哪种情形,如果不满意算法的输出结果,则可以回到第4步,改正并加以测试。问题常常会跟数据的收集和准备有关,这时就必须跳回到第1步重新开始。

(6)使用算法。将机器学习算法转换为应用程序,执行实际程序,以检验上述步骤是否可以在实际环境中正常工作。此时如果碰到新的数据问题,同样需要重新执行上述的步骤。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/750437?site
推荐阅读
相关标签
  

闽ICP备14008679号