赞
踩
1、机器学习基础过程
首先将原始数据划分为训练数据和测试数据,然后将训练数据放入模型训练,用测试数据进行验证模型好坏。
2、强化学习
强化学习的基础概念包括主体、环境、状态、动作和奖励。
主体(agent):是动作的行使者,例如配送货物的无人机,或者电子游戏中奔跑跳跃的超级马里奥。
状态(state):是主体的处境,亦即一个特定的时间和地点、一项明确主体与工具、障碍、敌人或奖品等其他重要事物的关系的配置。
动作(action):的含义不难领会,但应当注意的是,主体需要在一系列潜在动作中进行选择。在电子游戏中,这一系列动作可包括向左或向右跑、不同高度的跳跃、蹲下和站着不动。在股票市场中,这一系列动作可包括购买、出售或持有一组证券及其衍生品中的任意一种。无人飞行器的动作选项则包括三维空间中的许多不同的速度和加速度。
奖励(reward):是用于衡量主体的动作成功与否的反馈。例如,在电子游戏中,如果马里奥接触一枚金币,他就能赢得分数。主体向环境发出以动作为形式的输出,而环境则返回主体的新状态及奖励。
3、监督学习
利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。给定数据,预测标签。
监督学习分为分类(classification)和回归(regression)
分类:最广泛被使用的分类器有人工神经网络、支持向量机、近期邻居法、高斯混合模型、朴素贝叶斯方法、决策树和径向基函数分类。
回归:线性回归,神经网络
4、无监督学习
它从无标记的训练数据中推断结论。最典型的无监督学习就是聚类分析,它可以在探索性数据分析阶段用于发现隐藏的模式或者对数据进行分组。给定数据,寻找隐藏的结构。
5、监督学习 vs 无监督学习
最普遍的一类机器学习算法就是分类(classification),对于分类,输入的训练数据有特征(feature),有标签(label)。
学习的本质就是找到特征和标签间的关系(mapping)。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。
在上述的分类过程中,如果所有训练数据都有标签,则为有监督学习(supervised learning)。如果数据没有标签,显然就是无监督学习(unsupervised learning),如聚类(clustering)。
6、强化学习 vs 监督学习
强化学习和有监督学习的主要区别在于:
1、有监督学习的训练样本是有标签的,强化学习的训练是没有标签的,它是通过环境给出的奖惩来学习
2、有监督学习的学习过程是静态的,强化学习的学习过程是动态的。这里静态与动态的区别在于是否会与环境进行交互,有监督学习是给什么样本就学什么,而强化学习是要和环境进行交互,再通过环境给出的奖惩来学习
3、有监督学习解决的更多是感知问题,尤其是深度学习,强化学习解决的主要是决策问题。因此有监督学习更像是五官,而强化学习更像大脑。
举例
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。