赞
踩
整套课程可以说是比较基础的,几乎没有涉及到公式上的理论推导,更多的是一种理性上的认识,且每节都有实践操作,也很容易上手,很适合入门学习。限于课程有限、涉及到的比较浅显且涵盖面较少,对于想深入了解学习夯实基础的,可在此基础之上结合学习:周志华老师的西瓜书《机器学习》(之前博客分享:机器学习算法系列)+ 李航老师的《统计学习方法》。
为什么写这么一个分享,其实里面并没有什么创新和添加,看完一遍更多是是一个回顾总结以及夯实,然后也是为了共同学习过课程的小伙伴之间可以相互交流学习。
**
在本课中,您将学习最有效的机器学习技术,并获得实践,让它们为自己的工作。更重要的是,你会不仅得到理论基础的学习,而且获得那些需要快速和强大的应用技术解决问题的实用技术。最后,你会学到一些硅谷利用机器学习和人工智能的最佳实践创新。
本课程提供了一个广泛的介绍机器学习、数据挖掘、统计模式识别的课程。主题包括:
(一)监督学习(参数/非参数算法,支持向量机,核函数,神经网络)。
(二)无监督学习(聚类,降维,推荐系统,深入学习推荐)。
(三)在机器学习的最佳实践(偏差/方差理论;在机器学习和人工智能创新过程)。
本课程还将使用大量的案例研究,您还将学习如何运用学习算法构建智能机器人(感知,控制),文本的理解(Web 搜索,反垃圾邮件),计算机视觉,医疗信息,音频,数据挖掘,和其他领域。
本课程需要 10 周共 18 节课,相对以前的机器学习视频,这个视频更加清晰,而且每课都有 ppt 课件,推荐学习。
**
**
一、引言
机器学习简介:
谷歌和微软实现了学习算法来排行网页,你用 Facebook 或苹果的图片分类程序他能认出你朋友的照片,每次您阅读您的电子邮件垃圾邮件筛选器,可以帮你过滤大量的垃圾邮件这也是一种学习算法,机器学习不只是用于人工智能领域。 我们创造智能的机器,有很多基础的知识。比如,我们可以让机器找到 A 与 B 之间的最短路径,但我们仍然不知道怎么让机器做更有趣的事情,如 web 搜索、照片标记、反垃圾邮件。我们发现,唯一方法是让机器自己学习怎么来解决问题。所以,机器学习已经成为计算机的一个能力。
1、监督学习
房价预测实例:横轴表示面积,纵轴表示房价;我们根据已有的数据在坐标轴上以红叉的方式画出,然后根据这些样本数据拟合出一条直线或者二次方程的曲线,这就是监督学习。
监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”
组成。在房价的例子中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格,即它们实际的售价然后运用学习算法,算出更多的正确答案。比如你朋友那个新房子的价格。用术语来讲,这叫做回归问题。我们试着推测出一个连续值的结果,即房子的价格。
推测乳腺癌良性与否实例:
横轴表示肿瘤的大小,纵轴0/1表示是不是恶性肿瘤;然后我们根据实际样本进行坐标标注如图:假设绿色叉标注为非恶性而红色叉标注为恶性,那么我们在有了新的数据时就可以根据图上恶性及非恶性之间的坐标分割来进行判断。这是一种分类问题,即1/0为恶性/非恶性表示,其输出值为离散的;
如上只利用了一种特征即肿瘤大小来判断是否是恶性的,其实实际生活当中可以利用的特征是很多的,越多的特征其实代表着越高的可靠性。例如还有患者的年龄、肿块的密度、形状等等:
来回顾一下,这节课我们介绍了监督学习。其基本思想是,我们数据集中的每个样本都有相应的“正确答案”。再根据这些样本作出预测,就像房子和肿瘤的例子中做的那样。我们还介绍了回归问题,即通过回归来推出一个连续的输出,之后我们介绍了分类问题,其目标是推出一组离散的结果。
2、无监督学习
对比一下监督学习,数据集中的每一个样本都是拥有正确标签的:比如恶性/非恶性等等;而对于无监督学习,我们只有一个数据集,而对于数据集内部的是没有任何的标签的。
针对数据集,无监督学习就只能判断出数据有两个不同的聚集簇。这是一个,那是另一个,二者不同。是的,无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。
只能根据数据集之间不同的内部结构、特征等等进行聚类分簇,而并不知道这些分好的一堆堆是什么。
其实无监督学习的实例还是有很多的:当时实习的时候做的一个视频分簇,不同的视频混杂在一起,利用聚类的方法将其进行分簇,可以根据用户对于不同视频的喜好程度进行相应的推荐等等。(对于喜好的判断还涉及到数据挖掘的相关知识,相关博客中也有涉及到)
还有最常见的就是新闻聚类,将相关的新闻全部搜集在一起进行展示:
以这个就是无监督学习,因为我们没有提前告知算法一些信息,比如,这是第一类的人,那些是第二类的人,还有第三类,等等。我们只是说,是的,这是有一堆数据。我不知道数据里面有什么。我不知道谁是什么类型。我甚至不知道人们有哪些不同的类型,这些类型又是什么。但你能自动地找到数据中的结构吗?就是说你要自动地聚类那些个体到各个类,我没法提前知道哪些是哪些。因为我们没有给算法正确答案来回应数据集中的数据,所以这就是无监督学习。
无监督学习或聚集有着大量的应用。组织大型计算机集群:解决什么样的机器易于协同地工作,如果你能够让那些机器协同工作,你就能让你的数据中心工作得更高效。第二种应用就是社交网络的分析:已知你朋友的信息,比如你经常发 email 的,或是你 Facebook 的朋友、谷歌圈子的朋友,我们能否自动地给出朋友的分组呢?即每组里的人们彼此都熟识,认识组里的所有人?还有市场分割:许多公司有大型的数据库,存储消费者信息。所以,你能检索这些顾客数据集,自动地发现市场分类,并自动地把顾客划分到不同的细分市场中,你才能自动并更有效地销售或不同的细分市场一起进行销售。这也是无监督学习,因为我们拥有所有的顾
客数据,但我们没有提前知道是什么的细分市场,以及分别有哪些我们数据集中的顾客。我们不知道谁是在一号细分市场,谁在二号市场,等等。那我们就必须让算法从数据中发现这一切。最后,无监督学习也可用于天文数据分析,这些聚类算法给出了令人惊讶、有趣、有用的理论,解释了星系是如何诞生的。这些都是聚类的例子,聚类只是无监督学习中的一种。
鸡尾酒宴问题:不同人的说话声相互重叠分别传到麦克风,我们就可以利用算法将同一麦克风的不同人的语言进行聚类处理进而分离开来;
事实上,许多人在大硅谷的公司里做的其实就是,使用一种工具像 Octave/matlab 来做第一步的学习算法的原型搭建,只有在你已经让它工作后,你才移植它到 C++或 Java 或别的语言。事实证明,这样做通常可以让你的算法运行得比直接用 C++实现更快,所以,我知道,作为一名指导者,我必须说“相信我”,但对你们中从未使用过 Octave/matlab 这种编程环境的人,我还是要告诉你们这一点一定要相信我,我想,对你们而言,我认为你们的时间,你们的开发时间是最有价值的资源。我已经见过很多人这样做了,我把你看作是机器学习研究员,或机器学习开发人员,想更加高产的话,你要学会使用这个原型工具,开始使用 Octave/matlab。
第一讲很简单,没有涉及到具体的算法相关知识,主要是一些基本的大概的介绍,包括监督学习和无监督学习的概念及一些实例,以及最后关于相关工具的推荐介绍使用。同样也没有布置相关的实践操作。
下一讲:单变量线性回归
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。