赞
踩
六十五、海量的 item 算文本相似度的优化方法 —— simhash
from:https://blog.csdn.net/chenguolinblog/article/details/50830948
背景
如何设计一个比较两篇文章相似度的算法?可能你会回答几个比较传统点的思路:
下面,我们来分析下这两种方法。
举个例子,我们假设有以下三段文本:
使用传统hash可能会得到如下的结果:
可理想当中的hash函数,需要对几乎相同的输入内容,产生相同或者相近的hash值,换言之,hash值的相似程度要能直接反映输入内容的相似程度,故md5等传统hash方法也无法满足我们的需求。
出世
车到山前必有路,来自于GoogleMoses Charikar发表的一篇论文“detecting near-duplicates for web crawling”中提出了simhash算法,专门用来解决亿万级别的网页的去重任务。
simhash作为locality sensitive hash(局部敏感哈希)的一种:
如此,通过比较多个文档的simHash值的海明距离,可以获取它们的相似度。
流程
simhash算法分为5个步骤:分词、hash、加权、合并、降维,具体过程如下所述:
其流程如下图所示:
应用
举个例子,上面我们计算到的“CSDN博客”的simhash签名值为“1 0 1 0 1 1”,假定我们计算出另外一个短语的签名值为“1 0 1 0 0 0”,那么根据异或规则,我们可以计算出这两个签名的海明距离为2,从而判定这两个短语的相似度是比较高的。
换言之,现在问题转换为:对于64位的SimHash值,我们只要找到海明距离在3以内的所有签名,即可找出所有相似的短语。
但关键是,如何将其扩展到海量数据呢?譬如如何在海量的样本库中查询与其海明距离在3以内的记录呢?
这两种方案,要么时间复杂度高,要么空间复杂度复杂,能否有一种方案可以达到时空复杂度的绝佳平衡呢?答案是肯定的:
具体如下图所示:
如此,如果样本库中存有2^34(差不多10亿)的simhash签名,则每个table返回2^(34-16)=262144个候选结果,大大减少了海明距离的计算成本。
六十六、相似性度量
from:https://www.nowcoder.com/discuss/3453?type=0&order=0&pos=22&page=1
1. 欧氏距离(EuclideanDistance)
3. 切比雪夫距离 ( Chebyshev Distance )
国际象棋玩过么?国王走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?自己走走试试。你会发现最少步数总是max(| x2-x1 | , | y2-y1 | ) 步。有一种类似的一种距离度量方法叫切比雪夫距离。
4. 闵可夫斯基距离(MinkowskiDistance)
5. 标准化欧氏距离(Standardized Euclidean distance )
(1)标准欧氏距离的定义
标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路:既然数据各维分量的分布不一样,好吧!那我先将各个分量都“标准化”到均值、方差相等吧。均值和方差标准化到多少呢?这里先复习点统计学知识吧,假设样本集X的均值(mean)为m,标准差(standarddeviation)为s,那么X的“标准化变量”表示为:
而且标准化变量的数学期望为0,方差为1。因此样本集的标准化过程(standardization)用公式描述就是:
标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量的标准差
经过简单的推导就可以得到两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的标准化欧氏距离的公式:
如果将方差的倒数看成是一个权重,这个公式可以看成是一种加权欧氏距离(WeightedEuclidean distance)。
(2)Matlab计算标准化欧氏距离
例子:计算向量(0,0)、(1,0)、(0,2)两两间的标准化欧氏距离 (假设两个分量的标准差分别为0.5和1)
X= [0 0 ; 1 0 ; 0 2]
D= pdist(X, 'seuclidean',[0.5,1])
结果:
D=
2.0000 2.0000 2.8284
6. 马氏距离(MahalanobisDistance)
(1)马氏距离定义
有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的马氏距离表示为:
而其中向量Xi与Xj之间的马氏距离定义为:
若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则公式就成了:
也就是欧氏距离了。
若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。
(2)马氏距离的优缺点:量纲无关,排除变量之间的相关性的干扰。
(3)Matlab计算(1 2),( 1 3),( 2 2),( 3 1)两两之间的马氏距离
X = [1 2; 1 3; 2 2; 3 1]
Y = pdist(X,'mahalanobis')
结果:
Y= 2.3452 2.0000 2.3452 1.2247 2.4495 1.2247
7. 余弦距离(Cosine)
有没有搞错,又不是学几何,怎么扯到夹角余弦了?各位看官稍安勿躁。几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量样本向量之间的差异。
(1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式:
(2)两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦
类似的,对于两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n),可以使用类似于夹角余弦的概念来衡量它们间的相似程度。
即:
夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小,夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。
夹角余弦的具体应用可以参阅参考文献[1]。
(3)Matlab计算夹角余弦
例子:计算(1,0)、( 1,1.732)、(-1,0)两两间的夹角余弦
X= [1 0 ; 1 1.732 ; -1 0]
D= 1- pdist(X, 'cosine') % Matlab中的pdist(X,'cosine')得到的是1减夹角余弦的值
结果:
D=
0.5000 -1.0000 -0.5000
8. 汉明距离(Hammingdistance)
(1)汉明距离的定义
两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。
应用:信息编码(为了增强容错性,应使得编码间的最小汉明距离尽可能大)。
(2)Matlab计算汉明距离
Matlab中2个向量之间的汉明距离的定义为2个向量不同的分量所占的百分比。
例子:计算向量(0,0)、(1,0)、(0,2)两两间的汉明距离
X = [0 0 ; 1 0 ; 0 2];
D = PDIST(X, 'hamming')
结果:
D=
0.5000 0.5000 1.0000
9. 杰卡德相似系数(Jaccardsimilarity coefficient)
(1) 杰卡德相似系数
两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。
杰卡德相似系数是衡量两个集合的相似度一种指标。
(2) 杰卡德距离
与杰卡德相似系数相反的概念是杰卡德距离(Jaccarddistance)。杰卡德距离可用如下公式表示:
杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。
(3)杰卡德相似系数与杰卡德距离的应用
可将杰卡德相似系数用在衡量样本的相似度上。
样本A与样本B是两个n维向量,而且所有维度的取值都是0或1。例如:A(0111)和B(1011)。我们将样本看成是一个集合,1表示集合包含该元素,0表示集合不包含该元素。
p:样本A与B都是1的维度的个数
q:样本A是1,样本B是0的维度的个数
r:样本A是0,样本B是1的维度的个数
s:样本A与B都是0的维度的个数
那么样本A与B的杰卡德相似系数可以表示为:
这里p+q+r可理解为A与B的并集的元素个数,而p是A与B的交集的元素个数。
而样本A与B的杰卡德距离表示为:
(4)Matlab计算杰卡德距离
Matlab的pdist函数定义的杰卡德距离跟我这里的定义有一些差别,Matlab中将其定义为不同的维度的个数占“非全零维度”的比例。
例子:计算(1,1,0)、(1,-1,0)、(-1,1,0)两两之间的杰卡德距离
X= [1 1 0; 1 -1 0; -1 1 0]
D= pdist( X , 'jaccard')
结果
D=
0.5000 0.5000 1.0000
10. 相关系数( Correlation coefficient )与相关距离(Correlation distance)
(1)相关系数的定义
相关系数是衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。
(2)相关距离的定义
(3)Matlab计算(1, 2 ,3 ,4 )与( 3 ,8 ,7 ,6 )之间的相关系数与相关距离
X = [1 2 3 4 ; 3 8 7 6]
C = corrcoef( X' ) %将返回相关系数矩阵
D = pdist( X , 'correlation')
结果:
C=
1.0000 0.4781
0.4781 1.0000
D=
0.5219
其中0.4781就是相关系数,0.5219是相关距离。
11. 信息熵(Information Entropy)
信息熵并不属于一种相似性度量。那为什么放在这篇文章中啊?这个。。。我也不知道。 (╯▽╰)
信息熵是衡量分布的混乱程度或分散程度的一种度量。分布越分散(或者说分布越平均),信息熵就越大。分布越有序(或者说分布越集中),信息熵就越小。
计算给定的样本集X的信息熵的公式:
六十七、马式距离from:https://blog.csdn.net/panglinzhuo/article/details/77801869
马氏距离
用来度量一个样本点P与数据分布为D的集合的距离。
假设样本点为:
数据集分布的均值为:
协方差矩阵为S。
则这个样本点P与数据集合的马氏距离为:
马氏距离也可以衡量两个来自同一分布的样本x和y的相似性:
当样本集合的协方差矩阵是单位矩阵时,即样本的各个维度上的方差均为1.马氏距离就等于欧式距离相等。
当协方差矩阵是对角矩阵时,即样本数据在各个维度上的方差可能不为1.此时,
可以看做是标准化了的欧氏距离。其中,si为样本数据在第i个维度上的标准差。
思考
1.为什么马氏距离是尺度无关的?
想判断一个点是否属于一个集合,首先计算出这个集合的中心点(通过计算这个集合中所有样本的均值向量可以得到),然后求出这个点到中心点的距离,若大于一个阈值则认为不属于这个集合。但是这样有个问题,有的集合包含的范围比较大,待分类样本虽然离此集合中心点较其他集合的中心点远,但实际上属于这个集合,这就是尺度对分类结果的影响。为了消除这个影响,计算出集合中所有数据点到中心点的平均距离,这样,范围大的集合计算出来的平均距离就会较范围小的集合平均距离大,这个平均距离就是下式中的分母:标准差。
上式使得马氏距离具有尺度不变性。
但是这样还有问题,上面的式子只适合集合是圆形区域分布的,如下图:
对于下面的椭圆形例子,A点距离中心点更近,但是A点离集合边缘更近,更危险,一不小心就不属于这个集合了。所以仅仅通过上式得到的距离来衡量一个点属于一个集合的概率是不准确的。
假设一个样本集合的维度是N,数据在各个维度上的方差已知(方差较大的方向是数据主要的变化方向),可以把方差看做各个方向上的轴长,方差越大,轴越长,数据点在这个方向上就越不容易掉下悬崖,也就越安全。如果待测样本在各个维度上与集合中心的距离都远远小于这个维度上的轴长,那么这个样本属于集合的概率就越大。协方差矩阵的对角线元素就代表了各个维度上的方差。
再次看上式,可以认为,对每一个待测样本,都计算一下其与集合中心的距离,接着,在各个方向上均除以轴长(协方差矩阵求逆),最后再乘起来,整个结果越小则说明样本越靠近集合的中心。
六十八、DART算法怎么运行
from:https://blog.csdn.net/Yongchun_Zhu/article/details/78745529
DART算法和MART(GBDT)算法主要有两个不同点:
dropout
计算下一棵树要拟合的梯度的时候,仅仅随机从已经生成的树中选取一部分。假设经过n次迭代之后当前模型为M,M=∑ni=1Ti,当中Ti是第i次学习到的树。DART算法首先选择一个随机子集I⊂{1,...,n},创建模型M^=∑i∈ITi。树T从{(x,−L′x(M^(x)))}学习得到,当中L′x()表示求损失函数的梯度作为下一次的标签,GDBT中使用损失函数的梯度作为下一个树的输入标签。
归一化
DART和MART第二点不同就是DART添加一棵树时需要先归一化。归一化背后的原理是:树T是尝试减少M^和最优预测器之间的差距,dropped trees也是为了减少这个差距。因此引入new tree和dropped trees都是为了达到相同的目标。进一步说,假设通过I建立模型M^时drop掉k棵树。所以新的树T大概是dropped trees中每一个独立的树的k倍。因此,DART算法将树T乘以1/k,这使T的大小和每一个单独的dropped trees相同。然后,新的树和dropped trees都乘以k/(1+k),再将
六十九、基于规则的分类器的规则
from:https://www.cnblogs.com/zengzhihua/p/5458373.html
互斥规则 如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则是互斥的。这个性质确保每条记录至多被R中的一条规则覆盖。
穷举规则 如果对属性值的任意组合,R中都存在一条规则加以覆盖,则称规则集R具有穷举覆盖。这个性质确保每一条记录都至少被R中的一条规则覆盖。
这两个性质共同作用,保证每一条记录被且仅被一条规则覆盖。如果规则集不是穷举的,那么必须添加一个默认规则 rd:() → yd来覆盖那些未被覆盖的记录。默认规则的前件为空,当所有其他规则失效时触发。yd是默认类,通常被指定为没有被现存规则覆盖的训练记录的多数类。
如果规则集不是互斥的,那么一条记录可能被多条规则覆盖,这些规则的预测可能会相互冲突,解决这个问题有如下两种方法:
有序规则 规则集中的规则按照优先级降序排列,优先级的定义有多种方法(如基于准确率、覆盖率、总描述长度或规则产生的顺序等)。有序规则的规则集也称为决策表。当测试记录出现时,由覆盖记录的最高秩的规则对其进行分类,这就避免由多条分类规则来预测而产生的类冲突的问题。
无序规则 允许一条测试记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号。通常把记录指派到得票最多的类。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。