当前位置:   article > 正文

监督学习、无监督学习、强化学习概念_强化学习 惩罚函数

强化学习 惩罚函数

监督学习:监督学习即具有特征(feature)和标签(label)的,即使数据是没有标签的,也可以通过学习特征和标签之间的关系,判断出标签——分类。
简言之:提供数据,预测标签。通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出。
无监督学习:无监督学习即只有特征,没有标签。只有特征,没有标签的训练数据集中,通过数据之间的内在联系和相似性将他们分成若干类——聚类。根据数据本身的特性,从数据中根据某种度量学习出一些特性。
简言之:只给出数据,寻找隐藏的关系。
强化学习:强化学习与半监督学习类似,均使用未标记的数据,但是强化学习通过算法学习是否距离目标越来越近,利用了激励与惩罚函数。
简言之:通过不断激励与惩罚,达到最终目的。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/846893
推荐阅读
相关标签
  

闽ICP备14008679号