凡人多烦事01

这个屌丝很懒，什么也没留下！

热门标签

【校招面经】机器学习与数据挖掘常见面试题整理 part6_若是只比较两篇文章的相似性还好,但如果是海量数据呢,有着数以百万甚至亿万的网页

作者：凡人多烦事01 | 2024-03-07 08:14:40

踩

若是只比较两篇文章的相似性还好,但如果是海量数据呢,有着数以百万甚至亿万的网页

六十五、海量的 item 算文本相似度的优化方法 —— simhash

from：https://blog.csdn.net/chenguolinblog/article/details/50830948

背景

如何设计一个比较两篇文章相似度的算法？可能你会回答几个比较传统点的思路：

一种方案是先将两篇文章分别进行分词，得到一系列特征向量，然后计算特征向量之间的距离（可以计算它们之间的欧氏距离、海明距离或者夹角余弦等等），从而通过距离的大小来判断两篇文章的相似度。
另外一种方案是传统hash，我们考虑为每一个web文档通过hash的方式生成一个指纹（finger print）。

下面，我们来分析下这两种方法。

采取第一种方法，若是只比较两篇文章的相似性还好，但如果是海量数据呢，有着数以百万甚至亿万的网页，要求你计算这些网页的相似度。你还会去计算任意两个网页之间的距离或夹角余弦么？想必你不会了。
而第二种方案中所说的传统加密方式md5，其设计的目的是为了让整个分布尽可能地均匀，但如果输入内容一旦出现哪怕轻微的变化，hash值就会发生很大的变化。

举个例子，我们假设有以下三段文本：

the cat sat on the mat
the cat sat on a mat
we all scream for ice cream

使用传统hash可能会得到如下的结果：

irb(main):006:0> p1 = 'the cat sat on the mat'

- irb(main):007:0> p1.hash => 415542861

irb(main):005:0> p2 = 'the cat sat on a mat'

- irb(main):007:0> p2.hash => 668720516

irb(main):007:0> p3 = 'we all scream for ice cream'

- irb(main):007:0> p3.hash => 767429688 "

可理想当中的hash函数，需要对几乎相同的输入内容，产生相同或者相近的hash值，换言之，hash值的相似程度要能直接反映输入内容的相似程度，故md5等传统hash方法也无法满足我们的需求。

出世

车到山前必有路，来自于GoogleMoses Charikar发表的一篇论文“detecting near-duplicates for web crawling”中提出了simhash算法，专门用来解决亿万级别的网页的去重任务。

simhash作为locality sensitive hash（局部敏感哈希）的一种：

其主要思想是降维，将高维的特征向量映射成低维的特征向量，通过两个向量的Hamming Distance来确定文章是否重复或者高度近似。

- 其中，Hamming Distance，又称汉明距离，在信息论中，两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。也就是说，它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。例如：1011101 与 1001001 之间的汉明距离是 2。至于我们常说的字符串编辑距离则是一般形式的汉明距离。

如此，通过比较多个文档的simHash值的海明距离，可以获取它们的相似度。

流程

simhash算法分为5个步骤：分词、hash、加权、合并、降维，具体过程如下所述：

分词

- 给定一段语句，进行分词，得到有效的特征向量，然后为每一个特征向量设置1-5等5个级别的权重（如果是给定一个文本，那么特征向量可以是文本中的词，其权重可以是这个词出现的次数）。例如给定一段语句：“CSDN博客结构之法算法之道的作者July”，分词后为：“CSDN 博客结构之法算法之道的作者 July”，然后为每个特征向量赋予权值：CSDN(4) 博客(5) 结构(3) 之(1) 法(2) 算法(3) 之(1) 道(2) 的(1) 作者(5) July(5)，其中括号里的数字代表这个单词在整条语句中的重要程度，数字越大代表越重要。

hash

- 通过hash函数计算各个特征向量的hash值，hash值为二进制数01组成的n-bit签名。比如“CSDN”的hash值Hash(CSDN)为100101，“博客”的hash值Hash(博客)为“101011”。就这样，字符串就变成了一系列数字。

加权

- 在hash值的基础上，给所有特征向量进行加权，即W = Hash * weight，且遇到1则hash值和权值正相乘，遇到0则hash值和权值负相乘。例如给“CSDN”的hash值“100101”加权得到：W(CSDN) = 100101 4 = 4 -4 -4 4 -4 4，给“博客”的hash值“101011”加权得到：W(博客)=101011 5 = 5 -5 5 -5 5 5，其余特征向量类似此般操作。

合并

- 将上述各个特征向量的加权结果累加，变成只有一个序列串。拿前两个特征向量举例，例如“CSDN”的“4 -4 -4 4 -4 4”和“博客”的“5 -5 5 -5 5 5”进行累加，得到“4+5 -4+-5 -4+5 4+-5 -4+5 4+5”，得到“9 -9 1 -1 1”。

降维

- 对于n-bit签名的累加结果，如果大于0则置1，否则置0，从而得到该语句的simhash值，最后我们便可以根据不同语句simhash的海明距离来判断它们的相似度。例如把上面计算出来的“9 -9 1 -1 1 9”降维（某位大于0记为1，小于0记为0），得到的01串为：“1 0 1 0 1 1”，从而形成它们的simhash签名。

其流程如下图所示：

应用

每篇文档得到SimHash签名值后，接着计算两个签名的海明距离即可。根据经验值，对64位的 SimHash值，海明距离在3以内的可认为相似度比较高。

- 海明距离的求法：异或时，只有在两个比较的位不同时其结果是1 ，否则结果为0，两个二进制“异或”后得到1的个数即为海明距离的大小。

举个例子，上面我们计算到的“CSDN博客”的simhash签名值为“1 0 1 0 1 1”，假定我们计算出另外一个短语的签名值为“1 0 1 0 0 0”，那么根据异或规则，我们可以计算出这两个签名的海明距离为2，从而判定这两个短语的相似度是比较高的。

换言之，现在问题转换为：对于64位的SimHash值，我们只要找到海明距离在3以内的所有签名，即可找出所有相似的短语。

但关键是，如何将其扩展到海量数据呢？譬如如何在海量的样本库中查询与其海明距离在3以内的记录呢？

一种方案是查找待查询文本的64位simhash code的所有3位以内变化的组合

- 大约需要四万多次的查询。

另一种方案是预生成库中所有样本simhash code的3位变化以内的组合

- 大约需要占据4万多倍的原始空间。

这两种方案，要么时间复杂度高，要么空间复杂度复杂，能否有一种方案可以达到时空复杂度的绝佳平衡呢？答案是肯定的：

我们可以把 64 位的二进制simhash签名均分成4块，每块16位。根据鸽巢原理（也称抽屉原理），如果两个签名的海明距离在 3 以内，它们必有一块完全相同。如下图所示：

然后把分成的4 块中的每一个块分别作为前16位来进行查找，建倒排索引。

具体如下图所示：

如此，如果样本库中存有2^34（差不多10亿）的simhash签名，则每个table返回2^(34-16)=262144个候选结果，大大减少了海明距离的计算成本。

假设数据是均匀分布，16位的数据，产生的像限为2^16个，则平均每个像限分布的文档数则为2^34/2^16 = 2^(34-16)) ，四个块返回的总结果数为 4* 262144 （大概 100 万）。

- 这样，原本需要比较10亿次，经过索引后，大概只需要处理100万次。

六十六、相似性度量

from：https://www.nowcoder.com/discuss/3453?type=0&order=0&pos=22&page=1

1. 欧氏距离(EuclideanDistance)

3. 切比雪夫距离 ( Chebyshev Distance )

国际象棋玩过么？国王走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步？自己走走试试。你会发现最少步数总是max(| x2-x1 | , | y2-y1 | ) 步。有一种类似的一种距离度量方法叫切比雪夫距离。

4. 闵可夫斯基距离(MinkowskiDistance)

5. 标准化欧氏距离(Standardized Euclidean distance )

(1)标准欧氏距离的定义

标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路：既然数据各维分量的分布不一样，好吧！那我先将各个分量都“标准化”到均值、方差相等吧。均值和方差标准化到多少呢？这里先复习点统计学知识吧，假设样本集X的均值(mean)为m，标准差(standarddeviation)为s，那么X的“标准化变量”表示为：

而且标准化变量的数学期望为0，方差为1。因此样本集的标准化过程(standardization)用公式描述就是：

标准化后的值 = ( 标准化前的值－分量的均值 ) /分量的标准差

经过简单的推导就可以得到两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的标准化欧氏距离的公式：

如果将方差的倒数看成是一个权重，这个公式可以看成是一种加权欧氏距离(WeightedEuclidean distance)。

(2)Matlab计算标准化欧氏距离

例子：计算向量(0,0)、(1,0)、(0,2)两两间的标准化欧氏距离 (假设两个分量的标准差分别为0.5和1)

X= [0 0 ; 1 0 ; 0 2]

D= pdist(X, 'seuclidean',[0.5,1])

结果：

2.0000 2.0000 2.8284

6. 马氏距离(MahalanobisDistance)

（1）马氏距离定义

有M个样本向量X1~Xm，协方差矩阵记为S，均值记为向量μ，则其中样本向量X到u的马氏距离表示为：

而其中向量Xi与Xj之间的马氏距离定义为：

若协方差矩阵是单位矩阵（各个样本向量之间独立同分布）,则公式就成了：

也就是欧氏距离了。

若协方差矩阵是对角矩阵，公式变成了标准化欧氏距离。

(2)马氏距离的优缺点：量纲无关，排除变量之间的相关性的干扰。

(3)Matlab计算(1 2)，( 1 3)，( 2 2)，( 3 1)两两之间的马氏距离

X = [1 2; 1 3; 2 2; 3 1]

Y = pdist(X,'mahalanobis')

结果：

Y= 2.3452 2.0000 2.3452 1.2247 2.4495 1.2247

7. 余弦距离(Cosine)

有没有搞错，又不是学几何，怎么扯到夹角余弦了？各位看官稍安勿躁。几何中夹角余弦可用来衡量两个向量方向的差异，机器学习中借用这一概念来衡量样本向量之间的差异。

(1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式：

(2)两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦

类似的，对于两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)，可以使用类似于夹角余弦的概念来衡量它们间的相似程度。

即：

夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小，夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1，当两个向量的方向完全相反夹角余弦取最小值-1。

夹角余弦的具体应用可以参阅参考文献[1]。

(3)Matlab计算夹角余弦

例子：计算(1,0)、( 1,1.732)、(-1,0)两两间的夹角余弦

X= [1 0 ; 1 1.732 ; -1 0]

D= 1- pdist(X, 'cosine') % Matlab中的pdist(X,'cosine')得到的是1减夹角余弦的值

结果：

0.5000 -1.0000 -0.5000

8. 汉明距离(Hammingdistance)

(1)汉明距离的定义

两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。

应用：信息编码（为了增强容错性，应使得编码间的最小汉明距离尽可能大）。

(2)Matlab计算汉明距离

Matlab中2个向量之间的汉明距离的定义为2个向量不同的分量所占的百分比。

例子：计算向量(0,0)、(1,0)、(0,2)两两间的汉明距离

X = [0 0 ; 1 0 ; 0 2];

D = PDIST(X, 'hamming')

结果：

0.5000 0.5000 1.0000

9. 杰卡德相似系数(Jaccardsimilarity coefficient)

(1) 杰卡德相似系数

两个集合A和B的交集元素在A，B的并集中所占的比例，称为两个集合的杰卡德相似系数，用符号J(A,B)表示。

杰卡德相似系数是衡量两个集合的相似度一种指标。

(2) 杰卡德距离

与杰卡德相似系数相反的概念是杰卡德距离(Jaccarddistance)。杰卡德距离可用如下公式表示：

杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。

(3)杰卡德相似系数与杰卡德距离的应用

可将杰卡德相似系数用在衡量样本的相似度上。

样本A与样本B是两个n维向量，而且所有维度的取值都是0或1。例如：A(0111)和B(1011)。我们将样本看成是一个集合，1表示集合包含该元素，0表示集合不包含该元素。

p：样本A与B都是1的维度的个数

q：样本A是1，样本B是0的维度的个数

r：样本A是0，样本B是1的维度的个数

s：样本A与B都是0的维度的个数

那么样本A与B的杰卡德相似系数可以表示为：

这里p+q+r可理解为A与B的并集的元素个数，而p是A与B的交集的元素个数。

而样本A与B的杰卡德距离表示为：

(4)Matlab计算杰卡德距离

Matlab的pdist函数定义的杰卡德距离跟我这里的定义有一些差别，Matlab中将其定义为不同的维度的个数占“非全零维度”的比例。

例子：计算(1,1,0)、(1,-1,0)、(-1,1,0)两两之间的杰卡德距离

X= [1 1 0; 1 -1 0; -1 1 0]

D= pdist( X , 'jaccard')

结果

0.5000 0.5000 1.0000

10. 相关系数( Correlation coefficient )与相关距离(Correlation distance)

(1)相关系数的定义

相关系数是衡量随机变量X与Y相关程度的一种方法，相关系数的取值范围是[-1,1]。相关系数的绝对值越大，则表明X与Y相关度越高。当X与Y线性相关时，相关系数取值为1（正线性相关）或-1（负线性相关）。

(2)相关距离的定义

(3)Matlab计算(1, 2 ,3 ,4 )与( 3 ,8 ,7 ,6 )之间的相关系数与相关距离

X = [1 2 3 4 ; 3 8 7 6]

C = corrcoef( X' ) %将返回相关系数矩阵

D = pdist( X , 'correlation')

结果：

1.0000 0.4781

0.4781 1.0000

0.5219

其中0.4781就是相关系数，0.5219是相关距离。

11. 信息熵(Information Entropy)

信息熵并不属于一种相似性度量。那为什么放在这篇文章中啊？这个。。。我也不知道。 (╯▽╰)

信息熵是衡量分布的混乱程度或分散程度的一种度量。分布越分散(或者说分布越平均)，信息熵就越大。分布越有序（或者说分布越集中），信息熵就越小。

计算给定的样本集X的信息熵的公式：

六十七、马式距离from：https://blog.csdn.net/panglinzhuo/article/details/77801869

马氏距离

用来度量一个样本点Ｐ与数据分布为Ｄ的集合的距离。

假设样本点为：

数据集分布的均值为：

协方差矩阵为Ｓ。

则这个样本点Ｐ与数据集合的马氏距离为：

马氏距离也可以衡量两个来自同一分布的样本x和y的相似性：

当样本集合的协方差矩阵是单位矩阵时，即样本的各个维度上的方差均为１．马氏距离就等于欧式距离相等。

当协方差矩阵是对角矩阵时，即样本数据在各个维度上的方差可能不为１．此时，

可以看做是标准化了的欧氏距离。其中，ｓi为样本数据在第ｉ个维度上的标准差。

思考

1.为什么马氏距离是尺度无关的？

想判断一个点是否属于一个集合，首先计算出这个集合的中心点（通过计算这个集合中所有样本的均值向量可以得到），然后求出这个点到中心点的距离，若大于一个阈值则认为不属于这个集合。但是这样有个问题，有的集合包含的范围比较大，待分类样本虽然离此集合中心点较其他集合的中心点远，但实际上属于这个集合，这就是尺度对分类结果的影响。为了消除这个影响，计算出集合中所有数据点到中心点的平均距离，这样，范围大的集合计算出来的平均距离就会较范围小的集合平均距离大，这个平均距离就是下式中的分母：标准差。

上式使得马氏距离具有尺度不变性。

但是这样还有问题，上面的式子只适合集合是圆形区域分布的，如下图：

对于下面的椭圆形例子，Ａ点距离中心点更近，但是Ａ点离集合边缘更近，更危险，一不小心就不属于这个集合了。所以仅仅通过上式得到的距离来衡量一个点属于一个集合的概率是不准确的。

假设一个样本集合的维度是Ｎ，数据在各个维度上的方差已知（方差较大的方向是数据主要的变化方向），可以把方差看做各个方向上的轴长，方差越大，轴越长，数据点在这个方向上就越不容易掉下悬崖，也就越安全。如果待测样本在各个维度上与集合中心的距离都远远小于这个维度上的轴长，那么这个样本属于集合的概率就越大。协方差矩阵的对角线元素就代表了各个维度上的方差。

再次看上式，可以认为，对每一个待测样本，都计算一下其与集合中心的距离，接着，在各个方向上均除以轴长（协方差矩阵求逆），最后再乘起来，整个结果越小则说明样本越靠近集合的中心。

六十八、DART算法怎么运行

from：https://blog.csdn.net/Yongchun_Zhu/article/details/78745529

DART算法和MART(GBDT)算法主要有两个不同点：

dropout

计算下一棵树要拟合的梯度的时候，仅仅随机从已经生成的树中选取一部分。假设经过n次迭代之后当前模型为M，M=∑ni=1Ti，当中Ti是第i次学习到的树。DART算法首先选择一个随机子集I⊂{1,...,n}，创建模型M^=∑i∈ITi。树T从{(x,−L′x(M^(x)))}学习得到，当中L′x()表示求损失函数的梯度作为下一次的标签，GDBT中使用损失函数的梯度作为下一个树的输入标签。

归一化

DART和MART第二点不同就是DART添加一棵树时需要先归一化。归一化背后的原理是：树T是尝试减少M^和最优预测器之间的差距，dropped trees也是为了减少这个差距。因此引入new tree和dropped trees都是为了达到相同的目标。进一步说，假设通过I建立模型M^时drop掉k棵树。所以新的树T大概是dropped trees中每一个独立的树的k倍。因此，DART算法将树T乘以1/k，这使T的大小和每一个单独的dropped trees相同。然后，新的树和dropped trees都乘以k/(1+k)，再将

六十九、基于规则的分类器的规则

from：https://www.cnblogs.com/zengzhihua/p/5458373.html

互斥规则如果规则集R中不存在两条规则被同一条记录触发，则称规则集R中的规则是互斥的。这个性质确保每条记录至多被R中的一条规则覆盖。

　　穷举规则如果对属性值的任意组合，R中都存在一条规则加以覆盖，则称规则集R具有穷举覆盖。这个性质确保每一条记录都至少被R中的一条规则覆盖。

这两个性质共同作用，保证每一条记录被且仅被一条规则覆盖。如果规则集不是穷举的，那么必须添加一个默认规则 rd:() → yd来覆盖那些未被覆盖的记录。默认规则的前件为空，当所有其他规则失效时触发。yd是默认类，通常被指定为没有被现存规则覆盖的训练记录的多数类。

　　如果规则集不是互斥的，那么一条记录可能被多条规则覆盖，这些规则的预测可能会相互冲突，解决这个问题有如下两种方法：

　　有序规则规则集中的规则按照优先级降序排列，优先级的定义有多种方法（如基于准确率、覆盖率、总描述长度或规则产生的顺序等）。有序规则的规则集也称为决策表。当测试记录出现时，由覆盖记录的最高秩的规则对其进行分类，这就避免由多条分类规则来预测而产生的类冲突的问题。

　　无序规则允许一条测试记录触发多条分类规则，把每条被触发规则的后件看作是对相应类的一次投票，然后计票确定测试记录的类标号。通常把记录指派到得票最多的类。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/204443