赞
踩
这一章讲高阶分类,自然我们还学过其他一些分类器,无论是高阶还是低阶的,它们是:
那我们怎么知道哪两个人适合成为情侣呢?也许我们用人的思维来看就我们想把不吸烟的男的和女的介绍到一起。但是我们在利用机器学习的原理来判断两人是否适合成为情侣的时候,使用了训练集来训练我们的算法,也就说,这是一个监督类算法。书中为我们提供了训练集,我们可以把这个训练集看成是历史悠久的婚姻介绍所过往的记录。书中用csv格式为我们提高了500条数据,文件名:matchmaker.csv,我们来看其中一条:
39 yes no skiing:knitting:dancing220 W 42nd St New York NY43noyessoccer:reading:scrabble824 3rd Ave New York NY0
请注意,这只是一行。也许排版问题,过长会导致换行,但是这在matchmaker.csv文件中是一行的。数据我们有了,我们做的就是利用这个数据集,使用合适的算法,为新来的用户找出和他配对的对象。
很显然,结果是糟糕的。因为,成不成对关键是看差距,不能简单的认为男的大于多少,女的小于多少就容易成对。如果从图像的角度来看,就是这样的:
决策树做的分类就在图中画了一条垂直线或者是水平线,但是最后水平线的上线或者垂直线的左右,都混杂了两种分类。所以,决策是不成功的。
所以,有两点非常重要:虽然简单,但是是基础。
其中X点就计算出来的均指点,而且还有一条划分数据的直线,处于两个X点的中间位置。因此,所有在直接左侧的坐标点都表示不想匹配,而右侧的坐标点更接近于相匹配。
点积可以,利用两个向量的长度乘积,再乘以两者夹角的余弦求得。注意,夹角大于90度,那么夹角余弦值为负,此时点积结果也为负值。
举例说明,分类点M0(相匹配)和M1(不想匹配),新点X1和X2,C点是M0->M1的中点。
注意C是M0和M1的均值点,说实话,这一部分,我被绕晕了:
公式相乘:
我们得到了正确的结果,最关键的就是最后一组数据,在核技法的方法下,会判断其不会配对。而在基本的线性分类里,会判断其成功配对。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。