当前位置:   article > 正文

模糊推理_模糊推理过程 去模糊化

模糊推理过程 去模糊化

本文是论文《企业搜索引擎个性化表示与结果排序算法研究》的笔记,之所以文章标题为模糊推理,是因为这个概念对我来说比较新,且是这篇论文的关键算法。个人感觉这个算法虽然在该论文中实现的比较简单,但可以扩展到很多地方,故记之。

企业搜索引擎是做什么的呢?就是把企业中的文档与业务数据整合起来后,向企业内部提供的统一的搜索接口。企业搜索引擎与互联网上的搜索引擎不同,用户需要将资源按照内容排序而不是按照其链接关系来确定权重。且我觉得企业搜索引擎的数据相对互联网搜索引擎来说是极少的,因而可以采用论文中的方法来进行用户的个性化表示。

企业搜索引擎的基本流程

论文中使用本地文档集来表示用户的兴趣而不是采用关键词向量。使用本地文档集来表示用户兴趣时,需要先对用户浏览过的历史文档聚类,然后计算用户对各类文档的兴趣程度,按照兴趣程度之比例在本地文档集中分配属于各个类的文档的数目。当用户进行查询时,将返回的文档与本地文档集进行相似度比较,按照相似度比较结果来进行最终的排序。

采取本地文档集的方式比采取关键词向量的方式的优势在于,近期关注的文档由于其数目少,因而对关键词向量的影响并不大,因而不能反映用户兴趣的转移。而在本地文档集中,可以简单的通过使用时间加权或者更改文档集中各个类别的比例来迅速的反映用户兴趣的变化。

基本问题

如基本流程中所述,就出现一个问题,如何反映用户对聚类后的各类别的兴趣程度?具体的解决方法是先找到在这个类别中反映用户偏好的属性,根据这些属性来计算用户的偏好程度,然后将用户对各类的偏好程度归一化,归一化后的值就是各类在本地文档集中所占的比例。

反映偏好的属性

在某个类中,什么统计量才能反映用户对该类的偏好呢?第一当然是文档数目。某类的文档数目越多,说明用户对该类的使用程度越频繁,也就越感兴趣。论文中还提到了另外一种属性,即冷却时间。具体为属于某个类的每个文档的最后的访问时间与当前时间的差的平均值。公式如下:


其中,Di为第i个分类,t为当前时间点,tij为第i个分类中的第j篇文档的最后的访问时间。

有了这两个属性后,可以得到规则,冷却时间越小,文档数目越大,用户越喜欢该分类。

模糊化

进行模糊推理前,首先要对属性进行模糊化。论文中,将文档数目分为{多,中,少}三个级别。冷却时间也分为{短,中,长}三个级别。要做这样的分级,首先要将文档数目和冷却时间归一化,然后使用下图所示的分段函数来确定文档数目或冷却时间对模糊值的隶属度。


图1 隶属函数图

模糊推理

模糊规则由专家制定好,如下:


如上图示,共有9条规则,举例来说,某类文档多(Many)且冷却时间短(Short),则用户对其兴趣最大,为5。

当属性模糊化时对模糊值的隶属度不为0或1而是小数时,这时就要从推理规则中计算其感兴趣程度的支持度了。比如某类冷却时间为中,文档数目对中的隶属度为25%,对少的隶属度为75%,则用户对该类的兴趣为3的支持度为25%,对该类兴趣为2的支持度为75%。

去模糊化

去模糊化即将用户对类别D的兴趣程度精确化,令喜好程度{5,4,3,2,1}(5为喜欢,1为不喜欢)的权重分别为a1,a2,a3,a4,a5。用户对类别D的感兴趣程度的支持率分别为s1,s2,s3,s4,s5。则最后的用户对类别的最终感兴趣值为:


然后再按照流程所述,计算本地文档集的比率就可以了。

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/608586
推荐阅读
相关标签
  

闽ICP备14008679号