搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
繁依Fanyi0
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
人工智能技术应用笔记(三):Sora内测资格申请方法(快去申请,不知道什么时候关闭!)_sora内侧
2
计算机视觉(CV)中的注意力Attention机制_nn.conv2d(in_planes, in_planes // 16, 1, bias=fals
3
单次目标检测器-SSD简介
4
如何批量转换图片格式为jpg?_dsc怎么批量转换jpg不模糊
5
修复模糊图片——CodeFormer本地开源程序(全程无代码顶级详细,小学生都能看懂)_codeformer下载
6
【移动端】企业微信移动app测试实战_企业微信 工作台 应用 性能测试
7
构建Android项目时卡在Download gradle-8.2-src.zip_/gradle-8.2-src.zip下载慢
8
apk前缀debug、release、unaligned的区别_debug.apk
9
Vue数据响应式原理_vue.util.definereactive
10
面试:Android Bitmap 内存存储在JVM还是在native_android bitmap存储位置
当前位置:
article
> 正文
【学习笔记】Jaccard相似度和广义Jaccard相似度
作者:繁依Fanyi0 | 2024-03-15 14:00:43
赞
踩
广义jaccard
1. 狭义Jaccard相似度,计算两个集合之间的相似程度,元素的“取值”为0或1
对集合A和B,Jaccard相似度计算如下:
Jaccard(A, B)= |A intersect B| / |A union B|
相似度数值在[0, 1]之间,当A==B的时候,为1. 优缺点,就是元素的取值只能是0或者1,无法利用更丰富的信息。
由相似度,可以转换成Jaccard距离:
Jaccard distance (A, B) = 1 - Jaccard(A, B)
2. 广义Jaccard相似度,元素的取值可以是实数。又称为Tanimoto系数,用EJ来表示,计算方式如下:
EJ(A,B)=(A*B)/(||A||^2+||B||^2-A*B)
其中A、B分别表示为两个向量,集合中每个元素表示为向量中的一个维度,在每个维度上,取值通常是[0, 1]之间的值,A*B表示向量乘积,||A||^2表示向量的模,即 ||A||^2 = sqrt (a1^2 + a2^2 + a3^2 + ......)。
广义Jaccard相似度计算公式中,如果把分母的A*B去掉,并将||A||^2+||B||^2替换为(||A||^2)*(||B||^2),就转成了余弦相似度(cosine similarity)。
EJ中每个分量的取值可以是实数,通常在[0, 1]之间。对于两篇文档,分词之后,形成两个“词语--词频向量”,词语可以做为EJ的维度,如何将词频转换为实数值。借鉴tf/idf的思路。对于每个词语,有两个频度:1.在当前文档中的频度;2. 在所有文档中的频度。其中1相当于tf,与权重正相关;2相当于df,与权重反相关。
对于2,计算权重为
idf (w) = log (TotalWC/C(w))
C(w)是词语w在所有文档中出现的次数,TotalWC是所有文档中所有词的总词频。
对于1,权重就可以取词频本身 tf(w) = D(w),D(w)表示在当前文档中w出现的次数。
具体计算的代码可以参考 “
http://www.cnblogs.com/TtTiCk/archive/2007/08/04/842819.html
”的Documents.cs中的“SimilitudeValueToDocumentUsingGeneralizedJaccardCoefficient”函数。
3. 其他扩展方法
文章“
http://www.docin.com/p-461291267.html
”给出了一种扩展方法,用最大最小值函数来代替乘积和模计算,如下:
EJ(A,B) = sum ( min(a1, b1) + min (a2, b2)... ) / sum ( max(a1, b1) + max (a2, b2).. )
即用向量中每个分量的的最小值和最大值来参与计算。
个人理解,这个可以做如下解释。当集合A中的元素a1出现C(a1)次的时候,我们可以认为集合中的元素是允许重复存在的,即集合A中有C(a1)个元素;集合B也是这样,有C(b1)个相同的元素,则A和B在这个元素上的交集就是min(a1, b1) ,并集就是max(a1, b1) ,这样上述公式就是利用狭义Jaccard相似度计算的结果。
参考文献:
wiki:http://en.wikipedia.org/wiki/Jaccard_similarity
http://blog.csdn.net/knzeus/article/details/6319137
http://www.cnblogs.com/TtTiCk/archive/2007/08/04/842819.html
有代码示例
http://www.cnblogs.com/live41/archive/2010/01/03/1638222.html
http://www.docin.com/p-461291267.html
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/241475
推荐阅读
article
Android
计时器
Timer
详解,
倒计时
实现的技巧...
1.
计时器
Timer
基本用法,完成
倒计时
public class TimeActivity extends AppCom...
赞
踩
article
SIGIR2021
推荐
系统论文集锦...
嘿,记得给“机器学习与
推荐
算法”添加星标第44届国际信息检索研究和发展大会(SIGIR)将于2021年7月11-15日在...
赞
踩
article
Win11
无法识别
ADB
如何
设置
?_
win11adb
怎么
打开
...
最近有小伙伴们向小编反映不知道电脑的
ADB
怎么
进行
设置
,其实
ADB
是使用Android设备时重要的一个工具,可帮助您在手...
赞
踩
article
oracle
设置
mybatis
自动
生成
id
插入_
insert
新增时
自动
添加
id
oracle
...
本来想要在插入时
自动
生成
id
是很简单的,就是用
mybatis
Plus的注解,在实体类的
id
字段上加上@TableId注解...
赞
踩
article
基于协同过滤的电影评分推荐案例及相关代码
_
"
rating
_
matrix
=
rating
s.
pivot
_
...
文章目录案例介绍数据集加载相似度计算备注User-Based CF 预测评分评分预测公式实现评分预测predict实现预...
赞
踩
article
js通过识别
字符串
中
的
分号
进行换行
_
jq
找到
字符串
里面
的
分号
...
var str = "温馨提示:您
的
手机已于2017-10-14 7:30分欠费20元;您
的
手机已于2017-10-14...
赞
踩
article
【
SQL
】
sql
语句
在
insert
一条
记录
后
返回
该
记录
的
ID
...
insert
into test(name,age)values('xiao','1')SELECT @@
ID
ENTIT...
赞
踩
article
Sql语句
返回
自
增
Id
及
获取
当前表中
自
增
列
的
相关内容_
sql
获取
本表中
的
最大
自
增
的
行...
大家经常把
自
增
Id
设为主键,有时
自
增
Id
值还有其他用途,所以需要
返回
,下面介绍
返回
自
增
Id
的
实现方法。_
sql
获取
本表...
赞
踩
article
好用
的
项目管理
软件
的
具体功能
有
哪些...
随着企业规模不断
的
扩大,
项目管理
往往会面临更多
的
挑战与难题,最常见
的
会出现以下几个问题:资源消耗失控,而项目部门和相关部...
赞
踩
article
获取
Android
设备
信息——
build
.
prop
_android
prop
获取
设备
信息...
使用
Android
设备
信息作为控制相关变量
获取
Android
设备
相关信息
build
.
prop
文件adb
获取
设备
信息And...
赞
踩
article
Mybatis
中
useGeneratedKeys
与
keyProperty
、以及
自增
主键
_usege...
目录1.起因2.
useGeneratedKeys
属性与
keyProperty
属性3.注意事项4.jdbc版本5.Myba...
赞
踩
article
为什么
WebSocket
需要
前端
心跳
检测
,
有没有
原生的
检测
机制?_
websocket
心跳
检测
...
WebSocket
有没有
协议层面的
心跳
检测
机制呢,就不能依赖
WebSocket
自身的
检测
能力来进行
心跳
检测
吗?
前端
可以怎...
赞
踩
article
C++下
轻量化
websocket
客户端
库——
easywsclient
的
使用
_
c++
websocke...
easywsclient
项目核心代码为"
easywsclient
.hpp"和"
easywsclient
.cpp",仅需将...
赞
踩
article
2024 年排名前
5
名
的
Mac
数据恢复
软件
分享_
奇客
数据恢复
...
如果您已经在
Mac
上丢失了数据并且正在寻找恢复数据
的
方法,那么您来对地方了。互联网上有超过
5
0 个适用于
Mac
...
赞
踩
article
RS
Meet
DL(63)-[阿里]大型
推荐
系统
中
的
深度序列
匹配
模型
SDM
...
今天介绍
的
论文是:《
SDM
: Sequential Deep Matching Model for Online Lar...
赞
踩
article
Redis
- 一篇走心的
Redis
Util
工具
类
_
redisutils
.
lock
...
声明:此
工具
类
原型参考自https://github.com/whvcse/
Redis
Util,并作了进一步进行整理、修...
赞
踩
article
软件工程
总结——
Websocket
学习...
websocket协议的基本原理理解。和http的区别和联系。go语言使用开源仓库实现简单的websocket通信。_w...
赞
踩
article
Android
Studio
下载
地址 历史
版本
_怎么
下载
低
版本
的
androidstudio
...
http://www.android-studio.org/index.php/download/hisversion_...
赞
踩
article
Android
通过
SystemProperties
类查看
系统
参数
_查看
persist
.
sys
...
首先我们通过adb命令 adb shell ---》回车---》getprop得到以下
系统
参数
[audio.hdmi.a...
赞
踩
article
ChatGPT
基础知识系列之
Embeddings
模型_
chatgpt
embedding
...
这一节主要介绍了
ChatGPT
的
Embeddings
模型,主要包括
Embeddings
的发展历程和使用方式Embedd...
赞
踩
相关标签
android计时器timer哪些坑
数据挖掘
人工智能
编程语言
机器学习
推荐系统
windows
mybatis
oracle
java
sql
自增Id
declare
信息可视化
安全
科技
云计算
ADB
Android
mysql
自增主键
数据库兼容
websocket
前端