赞
踩
非监督学习又名无监督学习。无监督学习是机器学习中的一种训练方式/学习方式,无监督学习在AI知识结构中的位置如下:
下面通过跟监督学习的对比来理解无监督学习:
简单总结一下:
无监督学习是一种机器学习的训练方式,它本质上是一个统计手段,在没有标签的数据里可以发现潜在的一些结构的一种训练方式
它主要具备3个特点:
这么解释很难理解,下面用一些具体案例来告诉大家无监督学习的一些实际应用场景,通过这些实际场景,大家就能了解无监督学习的价值
关于机器学习与人工智能的简介见文章:传送门
案例1:发现异常
有很多违法行为都需要”洗钱”,这些洗钱行为跟普通用户的行为是不一样的,到底哪里不一样?
如果通过人为去分析是一件成本很高很复杂的事情,我们可以通过这些行为的特征对用户进行分类,就更容易找到那些行为异常的用户,然后再深入分析他们的行为到底哪里不一样,是否属于违法洗钱的范畴
通过无监督学习,我们可以快速把行为进行分类,虽然我们不知道这些分类意味着什么,但是通过这种分类,可以快速排出正常的用户,更有针对性的对异常行为进行深入分析
案例2:用户细分
用户细分对于广告平台很有意义,我们不仅把用户按照性别、年龄、地理位置等维度进行用户细分,还可以通过用户行为对用户进行分类
通过很多维度的用户细分,广告投放可以更有针对性,效果也会更好
案例3:推荐系统
大家都听过”啤酒+尿不湿”的故事,这个故事就是根据用户的购买行为来推荐相关的商品的一个例子
比如大家在淘宝、天猫、京东上逛的时候,总会根据你的浏览行为推荐一些相关的商品,有些商品就是无监督学习通过聚类来推荐出来的。系统会发现一些购买行为相似的用户,推荐这类用户最”喜欢”的商品
2种主流的无监督学习的算法:
1)K均值聚类
K均值聚类就是制定分组的数量为K,自动进行分组
K 均值聚类的步骤如下:
重复第2和3步,直到每次迭代时重心的位置不再显著变化(即直到该算法收敛)
其过程如下面的动图:
2)层次聚类
如果你不知道应该分为几类,那么层次聚类就比较适合了。层次聚类会构建一个多层嵌套的分类,类似一个树状结构
层次聚类的步骤如下:
1)PCA(主成分分析)
主成分分析是把多指标转化为少数几个综合指标
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面
变换的步骤:
t=1,2,…,N
)n e w B V i , p = ∑ k = 1 n e i B V i , k newBV_{i,p}=\sum_{k=1}^ne_iBV_{i,k} newBVi,p=k=1∑neiBVi,k
2)SVD(奇异值分解)
奇异值分解(Singular Value Decomposition)是线性代数中一种重要的矩阵分解,奇异值分解则是特征分解在任意矩阵上的推广。在信号处理、统计学等领域有重要应用
关于更多奇异值分解的信息,可以参考维基百科
无监督学习的最简单目标是训练算法生成自己的数据实例,但是模型不应该简单地重现之前训练的数据,否则就是简单的记忆行为
它必须是建立一个从数据中的基础类模型。不是生成特定的马或彩虹照片,而是生成马和彩虹的图片集;不是来自特定发言者的特定话语,而是说出话语的一般分布
生成模型的指导原则是,能够构建一个令人信服的数据示例是理解它的最有力证据。正如物理学家理查德·费曼所说:我不能创造的东西,我就不能了解
对于图像来说,迄今为止最成功的生成模型是生成对抗网络(GAN)。它由两个网络组成:一个生成器和一个鉴别器,分别负责伪造图片和识别真假
GAN生成的图像:
生成器产生图像的目的是诱使鉴别者相信它们是真实的,同时,鉴别者会因为发现假图片而获得奖励
GAN开始生成的图像是杂乱的和随机的,在许多次迭代中被细化,形成更加逼真的图像,甚至无法与真实照片区别开来。最近英伟达的GauGAN还能根据用户草图生成图片
参考文章:https://easyai.tech/ai-definition/unsupervised-learning/
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。